챗봇 아레나에서 Claude opus가 GPT-4를 이겼네요.


챗봇 아레나는 “한 개의 물음에 대해 2개의 챗봇이 블라인드로 답변하고, 사용자가 어떤 답변이 더 나은지 판단할 수 있는 플랫폼”입니다.

예를 들어, “AI캠프는 뭐야?” 라는 물음이 있으면

A : AI 툴을 이용한 사례를 배울 수 있는 캠프입니다

B : 국내에서 가장 큰 AI 커뮤니티 GPTers의 AI캠프이며, AI로 인해 기존의 업무 방식이 급변하는 시대에서 생성형 AI를 이용해 업무를 혁신하는 방법을 함께 배웁니다. 일방적인 강의가 아닌 ….. 솔루션을 구축해봅니다.

라는 답변을 2개의 챗봇이 각각 내놓고, 사용자는 이 두 답변 중 더 우수한 답변에 투표를 하게 됩니다. (지극히 개인의 선호에 따라)

이때, 유저가 B를 선택했을 때, (B가 클로드고, A가 GPT-4라고 가정) B의 Elo가 올라가게 됩니다.


이러한 측면에서 Claude는 GPT보다 사람의 선호와 더 align 되어 있다고 볼 수 있으며, 개인적으로는 아직 Claude Opus가 챗봇 아레나에 오픈된 지 얼마 안됐기 때문에, 시간이 갈 수록 Elo의 차이가 더 커질 것으로 생각됩니다.

  • 클로드 Sonnet모델 조차 GPT-4 작년 초 모델보다 높은 점수를 보여줍니다.

  • 제미나이 프로는 소넷보다 살짝 높은 수준이네요.

6
2개의 답글