1. Preview
Gemini 1.0은 올해 초 구글 딥마인드를 설립할 때의 비전을 실현한 첫 번째 모델로, 지금까지 만든 모델 중 가장 지능적이고 범용적임
‘처음부터 멀티모달로 설계’하여 훈련된 모델로, 텍스트, 이미지, 영상, 오디오, 코드 등 모든 종류의 입력을 이해하며, 복합적인 정보에 대한 추론 능력이 매우 뛰어남
2. Type
Gemini Ultra, Pro, Nano의 3가지 크기로 출시
- Gemini Ultra: 매우 복잡한 작업을 위한 가장 크고 성 능이 뛰어난 모델
- Gemini Pro: 다양한 작업으로 확장 가능한 모델
- Gemini Nano: 온디바이스용 모델
3. Gemini Ultra
Ultra는 대부분의 벤치마크 성능 평가에서 GPT-4를 능가하여 SOTA 달성, MMLU(대규모 멀티태스크 언어 이해)에서 90%의 점수를 기록하여 인간 전문가를 최초로 능가하는 등 멀티모달 작업과 관련된 영역에서 뛰어난 성능을 보임
세부 점검 및 성능 개선 후 내년에 공개할 예정이며, 추후 최고 모델과 기능을 탑재한 ‘Bard Advanced’도 출시할 예정
4. Gemini Pro
Pro는 현재 구글의 Bard에서 직접 사용해볼 수 있으며, 12월 13일부터 구글 AI Studio 및 Vertex AI에서 Gemini Pro API를 지원
5. Gemini Nano
Nano는 요약 및 독해 작업에 맞춰 미세 조정된 모바일 최적화 모델로, 오프라인 상태에서도 작동 가능한 차세대 온디바이스 모델
Gemini Nano-1(18억 개 파라미터)과 Nano-2(32.5억 개 파라미터)로 구성되어 있음
구글의 Pixel 8 Pro 스마트폰에 탑재되어 요약 및 스마트 답장 등의 기능을 지원하며, 추후 검색, 광고, 크롬 등으로 기능 확장할 것
6. 세부 사항
약 32K의 컨텍스트 길이를 지원하며, 컨텍스트 전체를 사용해도 성능 저하 없이 98%의 정확도를 보임
트랜스포머의 decoder 아키텍처를 기반으로 구축되었으며, 텍스트 이미지, 오디오, 영상 등의 입력을 받아 Text Decoder와 Image Decoder을 통 해 출력되는 구조
AI에 최적화된 구글 자체 TPU 인프라를 통해 학습되었으며, 추가로 생성 AI 학습에 최적화된 AI 가속기 ‘Cloud TPU v5p’를 공개하여 모델 학습 전반의 효율과 생산성을 높여줌
출처 :
요즘AIIntroducing Gemini: our largest and most capable AI model
구글과 Alphabet의 CEO인 Sundar Pichai와 Google DeepMind의 공동 창립자 겸 CEO인 Demis Hassabis가 AI 분야에서의 혁신적인 발전을 소개하며, 'Gemini'라는 새로운 AI 모델을 발 표했다.
'Gemini'는 텍스트, 코드, 오디오, 이미지, 비디오 등 다양한 형태의 정보를 이해하고 처리할 수 있는 다중 모드(multimodal) AI로, Ultra, Pro, Nano 세 가지 버전으로 최적화되어 있다.
Gemini는 각종 벤치마크에서 최고의 성능을 보이며, 자연어 처리, 이미지 이해, 프로그래밍 언어 생성 등 다양한 분야에서 우수한 결과를 보여주며, 안전성과 책임감 있는 AI 개발에 중점을 두고 있다.