챗봇 아레나는 “한 개의 물음에 대해 2개의 챗봇이 블라인드로 답변하고, 사용자가 어떤 답변이 더 나은지 판단할 수 있는 플랫폼”입니다.
예를 들어, “AI캠프는 뭐야?” 라는 물음이 있으면
A : AI 툴을 이용한 사례를 배울 수 있는 캠프입니다
B : 국내에서 가장 큰 AI 커뮤니티 GPTers의 AI캠프이며, AI로 인해 기존의 업무 방식이 급변하는 시대에서 생성형 AI를 이용해 업 무를 혁신하는 방법을 함께 배웁니다. 일방적인 강의가 아닌 ….. 솔루션을 구축해봅니다.
라는 답변을 2개의 챗봇이 각각 내놓고, 사용자는 이 두 답변 중 더 우수한 답변에 투표를 하게 됩니다. (지극히 개인의 선호에 따라)
이때, 유저가 B를 선택했을 때, (B가 클로드고, A가 GPT-4라고 가정) B의 Elo가 올라가게 됩니다.
이러한 측면에서 Claude는 GPT보다 사람의 선호와 더 align 되어 있다고 볼 수 있으며, 개인적으로는 아직 Claude Opus가 챗봇 아레나에 오픈된 지 얼마 안됐기 때문에, 시간이 갈 수록 Elo의 차이가 더 커질 것으로 생각됩니다.
클로드 Sonnet모델 조차 GPT-4 작년 초 모델보다 높은 점수를 보여줍니다.
제미나이 프로는 소넷보다 살짝 높은 수준이네요.