구글, 멀티모달 생성 AI, Gemini 1.0 공개

1. Preview

Gemini 1.0은 올해 초 구글 딥마인드를 설립할 때의 비전을 실현한 첫 번째 모델로, 지금까지 만든 모델 중 가장 지능적이고 범용적임

‘처음부터 멀티모달로 설계’하여 훈련된 모델로, 텍스트, 이미지, 영상, 오디오, 코드 등 모든 종류의 입력을 이해하며, 복합적인 정보에 대한 추론 능력이 매우 뛰어남

2. Type

Gemini Ultra, Pro, Nano의 3가지 크기로 출시

- Gemini Ultra: 매우 복잡한 작업을 위한 가장 크고 성능이 뛰어난 모델

- Gemini Pro: 다양한 작업으로 확장 가능한 모델

- Gemini Nano: 온디바이스용 모델

3. Gemini Ultra

Ultra는 대부분의 벤치마크 성능 평가에서 GPT-4를 능가하여 SOTA 달성, MMLU(대규모 멀티태스크 언어 이해)에서 90%의 점수를 기록하여 인간 전문가를 최초로 능가하는 등 멀티모달 작업과 관련된 영역에서 뛰어난 성능을 보임

세부 점검 및 성능 개선 후 내년에 공개할 예정이며, 추후 최고 모델과 기능을 탑재한 ‘Bard Advanced’도 출시할 예정

4. Gemini Pro

Pro는 현재 구글의 Bard에서 직접 사용해볼 수 있으며, 12월 13일부터 구글 AI Studio 및 Vertex AI에서 Gemini Pro API를 지원

5. Gemini Nano

Nano는 요약 및 독해 작업에 맞춰 미세 조정된 모바일 최적화 모델로, 오프라인 상태에서도 작동 가능한 차세대 온디바이스 모델

Gemini Nano-1(18억 개 파라미터)과 Nano-2(32.5억 개 파라미터)로 구성되어 있음

구글의 Pixel 8 Pro 스마트폰에 탑재되어 요약 및 스마트 답장 등의 기능을 지원하며, 추후 검색, 광고, 크롬 등으로 기능 확장할 것

6. 세부 사항

약 32K의 컨텍스트 길이를 지원하며, 컨텍스트 전체를 사용해도 성능 저하 없이 98%의 정확도를 보임

트랜스포머의 decoder 아키텍처를 기반으로 구축되었으며, 텍스트 이미지, 오디오, 영상 등의 입력을 받아 Text Decoder와 Image Decoder을 통해 출력되는 구조

AI에 최적화된 구글 자체 TPU 인프라를 통해 학습되었으며, 추가로 생성 AI 학습에 최적화된 AI 가속기 ‘Cloud TPU v5p’를 공개하여 모델 학습 전반의 효율과 생산성을 높여줌

출처 :

구글과 Alphabet의 CEO인 Sundar Pichai와 Google DeepMind의 공동 창립자 겸 CEO인 Demis Hassabis가 AI 분야에서의 혁신적인 발전을 소개하며, 'Gemini'라는 새로운 AI 모델을 발표했다.
'Gemini'는 텍스트, 코드, 오디오, 이미지, 비디오 등 다양한 형태의 정보를 이해하고 처리할 수 있는 다중 모드(multimodal) AI로, Ultra, Pro, Nano 세 가지 버전으로 최적화되어 있다.
Gemini는 각종 벤치마크에서 최고의 성능을 보이며, 자연어 처리, 이미지 이해, 프로그래밍 언어 생성 등 다양한 분야에서 우수한 결과를 보여주며, 안전성과 책임감 있는 AI 개발에 중점을 두고 있다.