GPT-4보다 성능 좋은 LLM 클로드 3의 출시

배경 및 개요

  • Claude 시리즈를 만든 Anthropic사는 OpenAI의 개발자들이 만든 회사입니다.

  • 이전부터, 다양한 벤치마크 테스트에서 거의 default 수준이라 볼 수 있는 GPT를 제외했을 때 llama등과 함께 가장 자주 볼 수 있는 모델이었으며, 성능 역시 뛰어났습니다.

  • Claude 2를 기준으로 했을 때도, 거의 유일하다시피 GPT-4에 비빌 수 있는 성능을 가졌었습니다. 예를 들어,

  • 할루시네이션 테스트

    • 챗봇 아레나 리더보드


클로드 3의 출시

  • 월요일에 Anthropic은 Claude 3를 출시했습니다. Claude 3는 매개변수 수에 따라서 Haiku, Sonnet 및 가장 Optimal한 모델인 Opus를 출시했으며, Sonnet은 이메일 로그인만을 통해 무료로 사용 가능합니다.

  • 단, Opus의 경우 Claude Pro에 월 20달러를 지불하고 사용 가능하며, 현재 최대 200,000개의 max token을 가지고 있습니다.

  • 현재는 이미지를 ‘읽을 수는 있지만’, 생성할 수는 없습니다. 이미지 생성은 기업의 니즈에 맞지 않다고 생각했다네요. 추후에, 필요에 따라 만들 수도 있다고 합니다.


성능

  • 성능을 간단히 들여다 보자면, 아래와 같습니다. GPT4나 최근 나온 Gemini Ultra보다 높은 성능을 보여주고 있네요.

    • 각 벤치마크 셋은, 문제라고 보시면 됩니다. 예를 들어, 임진왜란이 일어난 해는? 이라는 질문에 LLM이 1592년이라고 답하면 맞은 것으로 처리됩니다.

    • MMLU 같은 경우 학부 수준의 일반지식, GSM8K는 초등 수준의 수학 지식 등을 다룹니다.

  • 개인적으로, 이 정도의 벤치마크 차이는 실사용에서 유의미한 수준의 차이를 나타내지는 않는다고 봅니다만, 그럼에도 GPT-4를 정량 지표로 이기는 모습을 보는 게 쉬운 일은 아닙니다.

    • 부가적으로 해당 Benchmark 셋들은 Public한 데이터라, 모델 학습 과정에서 쓰이는 경우가 많습니다. 쉽게 말해, 이미 정답을 가르쳐 준 후, 다시 문제를 풀게 한 경우도 있을 수 있습니다.


사용 예시(Sonnet 기준)

  • Math에서 상대적으로 높은 점수를 받았기에 기대했지만, 중학 수학을 정확히 풀지 못하는 모습을 보여줍니다.

  • ‘대한민국’의 개념과 역사 등의 질문에 대해서는 일반적으로 잘 답하지만, ‘행정법의 공정력’과 같은 심화개념은 잘 모르는 모습을 보여줍니다.

  • 그럼에도 전체적인 사용 경험은 GPT-4와 크게 차이나지 않습니다. (위에서 하지 못한다고 지적했던 것들은 GPT-4 역시 하지 못합니다.)

6
1개의 답글