Claude OPUS 4.8 업데이트 총정리 - 4.7에서 뭐가 달라졌나?

Anthropic이 Opus 4.7 출시 6주 만에 Claude Opus 4.8을 내놨습니다. 가격은 그대로인데 코딩 성능과 정직성(honesty)이 올랐고, 대규모 작업을 자동으로 쪼개는 dynamic workflows 기능이 새로 들어갔습니다.

무슨 일이 있었나?

2026년 5월 28일, Anthropic이 최상위 모델 Claude Opus 4.8을 출시했습니다. 직전 버전인 Opus 4.7이 4월 16일에 나왔으니 약 6주 만의 업데이트입니다.

핵심은 두 가지입니다. 첫째, 코딩 벤치마크에서 자기 전작과 경쟁 모델을 모두 앞섰습니다. 에이전틱 코딩 능력을 재는 SWE-bench Pro에서 69.2%를 기록했는데, 이는 Opus 4.7의 64.3%, GPT-5.5의 58.6%, Gemini 3.1 Pro의 54.2%를 모두 넘는 수치입니다.

둘째, Anthropic은 Opus 4.8을 "지금까지 가장 정직한(most honest) 모델"이라고 표현했습니다. 코드의 결함을 그냥 넘기지 않고 잡아내는 능력이 핵심인데, 공식 발표에 따르면 Opus 4.8은 자신이 작성한 코드의 결함을 지적 없이 통과시킬 확률이 전작보다 약 4배 낮습니다. 친사회적 특성(prosocial traits) 측정에서 신기록을 세웠고, 오정렬(misalignment) 행동 비율도 Opus 4.7보다 크게 낮아졌습니다.

일반 사용 가격은 Opus 4.7과 동일합니다. 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러입니다. fast mode는 입력 10달러, 출력 50달러입니다.

벤치마크: 숫자가 실제로 의미하는 것

벤치마크 표는 흔하지만, 각 숫자가 어떤 작업을 재는지 알아야 내 업무에 맞는 판단을 할 수 있습니다. Opus 4.8의 주요 벤치마크를 측정 대상과 함께 정리했습니다.

각 줄을 풀어보면 이렇습니다.

SWE-bench Pro는 가짜 문제가 아니라 실제 오픈소스 저장소의 GitHub 이슈를 AI가 처음부터 끝까지 직접 고치게 하는 시험입니다. 가장 "실무 코딩"에 가깝습니다. 여기서 Opus 4.8은 69.2%로, 전작보다 4.9%p, GPT-5.5보다 10.6%p 앞섰습니다. 코드 작업이 주 용도라면 이 숫자가 가장 중요합니다.

Terminal-Bench 2.1은 터미널에서 명령을 직접 치고 에러를 잡는 능력입니다. 여기서는 GPT-5.5가 78.2%로 여전히 1위입니다. Opus 4.8도 66.1%→74.6%로 8.5%p나 따라붙었지만, 순위는 못 뒤집었습니다.

OSWorld-Verified는 모델이 사람처럼 마우스·키보드로 실제 화면을 조작하는 컴퓨터 사용(computer use) 능력입니다. 브라우저 에이전트 벤치마크(Online-Mind2Web)에서는 84%로 4.7과 GPT-5.5를 모두 제쳤습니다.

정리하면, "코딩·추론·컴퓨터 사용은 Opus, 터미널 에이전트는 GPT-5.5"라는 4.7 시절의 구도가 4.8에서도 유지됩니다. 모든 작업에서 1등인 단일 모델은 없으므로, 작업 성격에 맞춰 고르는 게 맞습니다.

4.7 대비 핵심 변화 5가지

세 줄 요약 표로 먼저 보면 이렇습니다.

항목

Opus 4.7

Opus 4.8

SWE-bench Pro

64.3%

69.2% (+4.9%p)

코드 결함 누락 확률

기준

약 4배 낮음

오정렬 행동 비율

기준

크게 낮아짐 (Mythos Preview 수준)

신규 기능

—

dynamic workflows + effort 컨트롤

일반 사용 가격

입력 $5 / 출력 $25

동일

이 중 가장 체감되는 변화는 "코드 결함을 4배 덜 놓친다"입니다. Anthropic의 표현 그대로는 "Opus 4.8은 자신이 작성한 코드의 결함을 지적 없이 통과시킬 확률이 전작보다 약 4배 낮다"입니다. 단순히 코드를 더 잘 짜는 게 아니라, 스스로 실수를 잡아내고, 계획이 부실하면 그대로 진행하지 않고 반박한다는 점이 핵심입니다.

Shopify의 스태프 엔지니어 Tom Pritchard는 "Claude Code에서 4.8은 적절한 질문을 던지고, 자기 실수를 잡아내며, 계획이 탄탄하지 않으면 밀어붙이지 않는다"고 평했습니다. 도구 호출(tool calling)도 더 효율적이어서, 같은 결과를 더 적은 스텝으로 처리합니다. 반복 호출이 많은 에이전트에서는 이게 곧 비용 절감으로 이어집니다.

새 기능: Dynamic Workflows

이번 버전에서 가장 눈에 띄는 신기능입니다. 한 마디로, 하나의 큰 작업을 모델이 알아서 수백 개의 병렬 서브에이전트로 쪼개 처리하는 기능입니다.

작동 방식은 이렇습니다. 사용자가 "이 코드베이스를 새 프레임워크로 마이그레이션해줘" 같은 큰 작업을 던지면, Opus 4.8이 먼저 작업 계획을 세우고, 그 계획을 수백 개의 하위 작업으로 나눠 서브에이전트에 분배합니다. 각 서브에이전트가 작업을 끝내면, 기존 테스트 스위트를 성공 기준으로 삼아 결과를 검증한 뒤 종합해서 보고합니다. 처음 지시(kickoff)부터 머지(merge)까지 한 세션 안에서 돌아갑니다.

그동안 이런 대규모 작업은 사람이 직접 여러 Claude 세션을 띄워 작업을 쪼개고, 결과를 모아 합치는 수작업 오케스트레이션이 필요했습니다. dynamic workflows는 이 과정을 모델이 대신합니다. Anthropic은 "수십만 줄 규모의 코드베이스 마이그레이션"을 대표 사례로 들고, 대규모 리팩터링·프레임워크 마이그레이션·여러 서비스에 걸친 변경 등을 적용 대상으로 제시합니다.

단, 현재 research preview 단계이고 Claude Code의 Enterprise·Team·Max 플랜에서만 제공됩니다. 개인 요금제 사용자는 아직 쓸 수 없습니다.

새 기능 2: Effort 컨트롤 (High / Extra / Max)

claude.ai와 Cowork에서 모델 선택기 옆에 노력(effort) 컨트롤이 추가됐습니다. 작업 난이도에 따라 모델이 토큰을 얼마나 쓸지 직접 고르는 기능입니다.

단계

용도

특징

High (기본)

일반 작업

품질과 응답 속도 균형. 4.7과 비슷한 토큰량으로 더 나은 성능

Extra

어려운 작업, 장시간 비동기 워크플로우

토큰을 더 써서 깊이 있게 처리

Max

최고 난도 작업

토큰 최대 투입, 최상의 결과

쉽게 말해 평소엔 High로 두고, 까다로운 리팩터링이나 오래 돌려야 하는 에이전트 작업엔 Extra·Max로 올리는 식입니다. 토큰을 더 쓰는 만큼 비용도 올라가니, 작업 난이도에 맞춰 조절하는 게 핵심입니다.

API 쪽도 정리하면, 모델 ID는 claude-opus-4-8이고, Messages API는 이제 messages 배열 안에 system 항목을 받을 수 있습니다.

실제 기업들은 어떻게 쓰고 있나

Anthropic이 공개한 도입 사례를 보면, 4.8이 어떤 작업에서 강한지 가늠할 수 있습니다.

Databricks (Hanlin Tang, CTO): "이전 어떤 Opus보다 깊고 여러 단계에 걸친 질문을 더 빠르게 처리한다." 자사 Genie 에이전트에서 fast mode로 토큰 비용을 61% 절감했습니다.
Hebbia (Aabhas Sharma, CTO): 검색·인용 작업에서 "인용 정확도가 눈에 띄게 좋아지고 토큰 효율이 올랐다."
CoCounsel (법률, Joel Hron, CTO): "이전 Opus 대비 일관성과 추론 품질에서 의미 있는 개선." Opus 4.8은 Legal Agent Benchmark에서 처음으로 전 항목 통과한 모델입니다.
Devin (Scott Wu, CEO): "사람 감시 없이 계속 돌아가야 하는 자율 엔지니어링 작업에 필요한 일관성으로, 도구를 깔끔하게 쓰고 지시를 잘 따른다."

공통점은 "사람이 매번 확인하지 않아도 되는 자율 작업"에서 신뢰도가 올랐다는 평가입니다.

왜 중요한가?

가격을 올리지 않고 성능과 안전성을 동시에 끌어올렸다는 점이 핵심입니다. 특히 "코드 결함을 4배 덜 놓친다", "오정렬 지표가 내려갔다"는 두 지표는 사람이 일일이 감시하지 않고 에이전트를 돌리는 환경에서 의미가 큽니다.

자율 에이전트는 잘못된 판단을 조용히 통과시키면 그 비용이 뒤늦게, 크게 돌아옵니다. Opus 4.8이 "가장 정직한 모델"이라는 포지셔닝을 내세운 건 단순 마케팅 문구가 아니라, 무인 운영 신뢰도가 곧 실사용 가치라는 시장 흐름을 반영한 것으로 볼 수 있습니다.

실전에서 어떻게 쓸 수 있을까?

개발자 입장에서 바로 적용해볼 수 있는 지점을 정리하면 다음과 같습니다.

코드 리뷰·IDE 보조

결함 탐지와 계획 검증이 좋아졌으므로, 코드 리뷰 자동화나 IDE 보조 작업에서 체감 차이가 큽니다. 기존 4.7 워크플로우를 쓰고 있었다면 모델명만 4.8로 바꿔도 리뷰 누락이 줄어들 가능성이 높습니다.

대규모 리팩터링·마이그레이션

수십만 줄 규모의 마이그레이션이나 의존성 업그레이드처럼 사람이 세션을 쪼개 관리하던 작업은 dynamic workflows로 넘길 수 있습니다. 단, Team 이상 플랜이 필요하다는 점을 먼저 확인하세요.

비용에 민감한 자동화

반복 호출이 많은 에이전트라면 fast mode의 3배 저렴해진 단가가 직접적인 비용 절감으로 이어집니다. Databricks의 61% 절감 사례처럼, 토큰을 많이 쓰는 파이프라인일수록 효과가 큽니다.

마무리

이번 업데이트에서 진짜 변곡점은 벤치마크 1~2%p가 아니라, Anthropic이 경쟁의 축을 "얼마나 똑똑한가"에서 "얼마나 맡길 수 있는가"로 옮겼다는 데 있습니다. 코드 결함을 4배 덜 놓치고, 수백 개 서브에이전트를 스스로 검증하는 dynamic workflows는 결국 같은 방향을 가리킵니다 — 사람이 매 단계 감시하지 않아도 되는 자율 실행. 가격을 묶어둔 채 이 신뢰도를 끌어올린 건, 모델 성능이 상향 평준화된 시장에서 "값을 더 받을 명분"을 똑똑함이 아닌 정직함에서 찾겠다는 베팅으로 읽힙니다. 그래서 대부분의 팀에게 4.8 전환은 비용 부담 없는 업그레이드지만, 그 진짜 가치는 "에이전트를 켜두고 자리를 비울 수 있느냐"로 판가름 날 겁니다.

원문: Claude Opus 4.8: What Developers Need to Know About Anthropic's New Flagship (dev.to)
공식 발표: Introducing Claude Opus 4.8 (Anthropic)