10배 더 큰 모델의 성능을 달성하는 Google의 새로운 PaLI-3 비전 언어 모델

Google의 연구팀이 개발한 PaLI-3 비전 언어 모델(VLM)은 50억 개의 파라미터를 사용하여 이미지와 언어 처리에서 뛰어난 성능을 보이며, 크기가 작음에도 불구하고 타사 제품을 10배 이상 능가하는 결과를 달성했습니다.
PaLI-3는 이미지와 텍스트의 상관관계를 파악하기 위해 비전 트랜스포머와 인코더-디코더 트랜스포머 프레임워크를 통합한 구조를 가지며, 다양한 이미지-언어 작업에서 최첨단 모델들을 능가하는 성능을 보여줍니다.
Google의 이전 모델들과 비교하여, PaLI-3는 훈련 및 배포의 용이성, 환경 영향 감소, 연구 주기 단축 등 다양한 이점을 제공하며, SigLIP 비전 트랜스포머를 사용하는 새로운 훈련 방식을 채택하여 더욱 간소화된 접근 방식을 보여줍니다.