배경 및 개요
Claude 시리즈를 만든 Anthropic사는 OpenAI의 개발자들이 만든 회사입니다.
이전부터, 다양한 벤치마크 테스트에서 거의 default 수준이라 볼 수 있는 GPT를 제외했을 때 llama등과 함께 가장 자주 볼 수 있는 모델이었으며, 성능 역시 뛰어났습니다.
Claude 2를 기준으로 했을 때도, 거의 유일하다시피 GPT-4에 비빌 수 있는 성능을 가졌었습니다. 예를 들어,
할루시네이션 테스트
챗봇 아레나 리더보드
클로드 3의 출시
월요일에 Anthropic은 Claude 3를 출시했습니다. Claude 3는 매개변수 수에 따라서 Haiku, Sonnet 및 가장 Optimal한 모델인 Opus를 출시했으며, Sonnet은 이메일 로그인만을 통해 무료로 사용 가능합니다.
단, Opus의 경우 Claude Pro에 월 20달러를 지불하고 사용 가능하며, 현재 최대 200,000개의 max token을 가지고 있습니다.
현재는 이미지를 ‘읽을 수는 있지만’, 생성할 수는 없습니다. 이미지 생성은 기업의 니즈에 맞지 않다고 생각했다네요. 추후에, 필요에 따라 만들 수도 있다고 합니다.
성능
성능을 간단히 들여다 보자면, 아래와 같습니다. GPT4나 최근 나온 Gemini Ultra보다 높은 성능을 보여주고 있네요.
각 벤치마크 셋은, 문제라고 보시면 됩니다. 예를 들어, 임진왜란이 일어난 해는? 이라는 질문에 LLM이 1592년이라고 답하면 맞은 것으로 처리됩니다.
MMLU 같은 경우 학부 수준 의 일반지식, GSM8K는 초등 수준의 수학 지식 등을 다룹니다.
개인적으로, 이 정도의 벤치마크 차이는 실사용에서 유의미한 수준의 차이를 나타내지는 않는다고 봅니다만, 그럼에도 GPT-4를 정량 지표로 이기는 모습을 보는 게 쉬운 일은 아닙니다.
부가적으로 해당 Benchmark 셋들은 Public한 데이터라, 모델 학습 과정에서 쓰이는 경우가 많습니다. 쉽게 말해, 이미 정답을 가르쳐 준 후, 다시 문제를 풀게 한 경우도 있을 수 있습니다.
사용 예시(Sonnet 기준)
Math에서 상대적으로 높은 점수를 받았기에 기대했지만, 중학 수학을 정확히 풀지 못하는 모습을 보여줍니다.
‘대한민국’의 개념과 역사 등의 질문에 대해서는 일반적으로 잘 답하지 만, ‘행정법의 공정력’과 같은 심화개념은 잘 모르는 모습을 보여줍니다.
그럼에도 전체적인 사용 경험은 GPT-4와 크게 차이나지 않습니다. (위에서 하지 못한다고 지적했던 것들은 GPT-4 역시 하지 못합니다.)