AGI 판단하는 'GAIA 벤치마크' 등장..."GPT-4가 30%로 1위"
인공일반지능(AGI)을 평가하기 위한 GAIA 벤치마크 도입, 일상 업무 처리 능력에 초점을 맞춤.
GPT-4는 GAIA 벤치마크에서 최고 30%의 점수를 획득, 하지만 AGI로서의 완전한 인 간 수준에는 미치지 못함.
GAIA는 일반적인 상식과 적응성, 추론 능력을 평가, 대형언어모델(LLM)의 AGI 가능성을 탐구.