GPT 5.4 출시 총정리 — Claude Opus 4.6와 비교하면 뭐가 더 좋을까?

"이번엔 진짜 다르다"가 진짜인 이유

오늘 OpenAI가 GPT 5.4를 발표했어요. 솔직히 AI 업계에서 "이번 건 다르다"는 말, 이제 좀 지치잖아요.
그런데 이번엔 숫자를 보고 나서 생각이 바뀌었습니다.

GPT 5.4는 단순한 버전 업이 아닙니다. 지금까지 따로 놀던 추론(GPT-5.2 Thinking), 코딩(GPT-5.3 Codex), 그리고 새로운 컴퓨터 사용(Computer Use) 기능을 하나의 모델에 통합한 첫 번째 모델입니다.
여기에 1M 토큰 컨텍스트 윈도우까지 얹었습니다.

GPT 5.4가 진짜 바꾼 것 — 3가지 핵심 변화

1. 추론 + 코딩 + 컴퓨터 사용의 통합

지금까지 OpenAI는 용도별로 모델을 나눠 왔습니다. 추론은 GPT-5.2 Thinking, 코딩은 GPT-5.3 Codex. GPT 5.4는 이걸 하나로 합쳤습니다.

실무에서 이게 왜 중요하냐면, "이 작업은 어떤 모델로 보내야 하지?"라는 고민이 줄어듭니다. 하나의 모델이 문서를 분석하고, 코드를 작성하고, 그 코드를 직접 실행하는 흐름이 가능해집니다.

2. 네이티브 컴퓨터 사용

GPT 5.4는 OpenAI 모델 중 처음으로 컴퓨터 화면을 보고, 마우스와 키보드를 직접 조작할 수 있습니다. OSWorld 벤치마크 75.0%가 이를 증명합니다.

Anthropic의 Claude도 컴퓨터 사용을 지원하지만, GPT 5.4는 이걸 범용 모델 안에 녹여냈다는 점이 다릅니다. 별도의 특화 모델 없이, 대화하던 그 모델이 바로 컴퓨터를 조작합니다.

3. 1M 토큰 컨텍스트

OpenAI 역대 최대 컨텍스트 윈도우입니다. 소설 여러 권, 또는 중대형 코드베이스 전체를 한 번에 넣을 수 있습니다. Claude Opus 4.6도 1M 컨텍스트를 베타로 지원하고 있어서 이 부분은 동급입니다.

그렇다면 지금 가장 궁금한 건 하나죠. Claude Opus 4.6과 비교하면 어떤가?

GPT 5.4 VS OPUS 4.6 비교 요약

GPT 5.4 Thinking은 10개 벤치마크 중 8개에서 1위를 차지했습니다.
하지만 Claude Opus 4.6이 에이전트 브라우징에서 앞서고, Gemini 3.1 Pro도 특정 영역에서 선전합니다.
숫자만 보면 GPT 5.4가 우세하지만, 실무에서의 선택은 다른 이야기입니다.

벤치마크 비교 — 숫자로 보는 진짜 실력

1. 에이전트 능력 비교 - "AI가 직접 컴퓨터를 조작한다면?"

벤치마크 이름이 생소할 수 있어서, 각각 어떤 능력을 테스트하는 건지 먼저 풀어드립니다.

테스트 항목

쉽게 말하면

GPT 5.4

Opus 4.6

차이

OSWorld
— 컴퓨터 조작

AI에게 "엑셀 열어서 이 데이터 정리해줘"라고 시켰을 때, 마우스·키보드로 직접 해내는 능력

75.0%

72.7%

+2.3p

WebArena
— 웹사이트 탐색

"이 사이트에서 회원가입하고 주문해줘" 같은 웹 작업 수행력

67.3%

66.4%*

+0.9p

BrowseComp
— 정보 수집

"이 주제에 대해 여러 사이트 돌면서 정보 모아줘" 같은 리서치 능력

82.7%

84.0%

-1.3p

Toolathlon
— 도구 활용

검색, 계산기, API 등 여러 도구를 조합해서 복잡한 작업을 처리하는 능력

54.6%

44.8%*

+9.8p

정리하면, 컴퓨터를 직접 조작하고 도구를 활용하는 건 GPT 5.4가 앞섭니다. 특히 여러 도구를 조합하는 Toolathlon에서 9.8%p 차이가 납니다. 반면 **웹에서 정보를 찾아 종합하는 리서치 작업**은 Claude가 더 정확합니다.

2. 추론 & 코딩 비교 - "코딩이랑 수학은 누가 잘해?"

테스트 항목

설명

GPT 5.4

Claude Opus 4.6

SWE-Bench Pro — 실전 코딩

실제 오픈소스 프로젝트의 버그를 고치는 능력. 개발자 실력 테스트라고 보면 됩니다

57.7%

데이터 없음

GPQA Diamond — 전문가 문제

박사급 과학자도 어려워하는 물리·화학·생물 문제 풀기

92.8%

91.3%

FrontierMath T1-3 — 수학

대학~대학원 수준의 수학 문제

47.6%

40.7%

FrontierMath T4 — 고급 수학

연구자 수준의 난이도 높은 수학 문제

27.1%

22.9%

코딩과 추론에서 GPT 5.4가 전반적으로 앞섭니다. 다만 SWE-Bench Pro에서 Claude Opus 4.6 데이터가 빠져있는 게 눈에 띕니다. 기존 SWE-bench(일반 버전)에서 Claude가 80.8%로 압도적이었거든요. Pro 버전에서 데이터를 안 낸 이유가 궁금해지는 대목입니다.

3. 지식 업무 비교 - "실제 업무를 시키면?"

테스트 항목

쉽게 말하면

GPT 5.4

Claude Opus 4.6

GDPval — 44개 직종 실무

마케터, 회계사, 변호사 등 44개 직업의 실제 업무를 시켜보는 테스트

83.0%

78.0%

GPT 5.4가 83%라는 건, 5개 업무를 시키면 4개 이상에서 인간 전문가 수준의 결과를 낸다는 뜻입니다.

GPT 5.4 Pro — 돈을 더 내면 얼마나 달라질까?

GPT 5.4에는 Thinking(기본), Pro(최고 성능) 두 가지 버전이 있습니다. Pro 버전의 성능은 차원이 다릅니다.

벤치마크

GPT 5.4 Thinking

GPT 5.4 Pro

향상폭

GPQA Diamond

92.8%

94.4%

+1.6p

BrowseComp

82.7%

89.3%

+6.6p

FrontierMath T1-3

47.6%

50.0%

+2.4p

GDPval

83.0%

82.0%

-1.0p

Pro 버전은 BrowseComp에서 89.3%를 기록하며 Claude의 84.0%마저 넘어섭니다. GPQA Diamond 94.4%는 Gemini 3.1 Pro의 94.3%도 제쳤습니다. 사실상 Pro 모드에서는 전 분야 1위입니다.

다만 가격이 문제입니다. GPT 5.4는 API 기준 입력 $2.50/1M, 출력 $20/1M으로 알려져 있습니다. Claude Opus 4.6의 $5/$25와 비교하면 입력은 저렴하지만 출력 가격 차이가 크지 않습니다. Pro 버전은 더 비쌀 가능성이 높습니다.

클로드 옵터스 4 6 - 클로드 옵터스 4 6 - 클로드 옵터스 4 6 -

Claude Opus 4.6의 강점 — GPT 5.4가 못 이기는 것

벤치마크에서 GPT 5.4가 앞서는 건 사실이지만, Claude에도 분명한 강점이 있습니다.

에이전트 브라우징: BrowseComp 84.0%로 GPT 5.4 Thinking(82.7%)을 넘깁니다. 웹에서 정보를 찾아 종합하는 작업은 Claude가 더 정확합니다.

경제적 가치 높은 업무: GDPval-AA 벤치마크에서 Claude Opus 4.6은 GPT-5.2를 Elo 기준 144점 차로 이겼습니다. 재무 분석, 법률 검토, 리서치 종합 같은 고부가가치 업무에서의 품질은 Claude가 앞서는 영역입니다.

코딩 에이전트 생태계: Claude Code, Cowork, Agent Teams 등 이미 구축된 에이전트 도구 생태계가 있습니다. GPT 5.4가 성능은 올렸지만, 이 생태계를 당장 따라잡기는 어렵습니다.

가격 대비 성능: 복잡한 코딩 작업에서 Claude Opus 4.6의 $5/$25 가격은 GPT 5.4 대비 경쟁력이 있습니다.

실전 활용 가이드 — 이럴 땐 이걸 쓰세요

숫자 비교도 중요하지만, 결국 "내 작업에 뭘 쓸까"가 핵심이에요.

GPT 5.4를 쓰면 좋은 경우

컴퓨터 자동화가 필요할 때: 반복적인 웹 작업, 앱 간 데이터 이동, 스프레드시트 자동 입력. 네이티브 컴퓨터 사용 기능이 가장 빛나는 영역입니다.
수학/과학 추론이 핵심일 때: FrontierMath 50%(Pro)는 현존 최고 수치입니다. 복잡한 수식이나 과학 논문 분석에 적합합니다.
하나의 모델로 다양한 작업을 처리할 때: 문서 분석 → 코드 작성 → 실행까지 하나의 대화에서 이어가고 싶다면 GPT 5.4가 편합니다.
금융 업무: Excel, Google Sheets 플러그인이 내장되어 있어 재무 데이터 처리에 특화되어 있습니다.

Claude Opus 4.6을 쓰면 좋은 경우

대규모 코드베이스 작업: 다중 파일 아키텍처를 다루는 복잡한 코딩 작업은 Claude Code + Opus 4.6 조합이 여전히 강합니다.
리서치 & 보고서 작성: 여러 소스를 종합하는 작업, 깊이 있는 분석 보고서에서 Claude의 품질이 두드러집니다.
에이전트 워크플로우를 이미 쓰고 있다면: Claude Code, Cowork 기반으로 업무 자동화를 구축해둔 분이라면 굳이 바꿀 이유가 없습니다.
비용 최적화가 중요할 때: 비슷한 품질에서 가격 효율을 따진다면 Claude Sonnet 4.6이라는 선택지도 있습니다.

벤치마크 숫자만 보면 GPT 5.4의 압승처럼 보입니다. 하지만 실무에서의 체감은 다를 수 있어요.

첫째, OpenAI의 진짜 타겟은 Claude Code와 Cowork입니다. GPT 5.4가 추론+코딩+컴퓨터 사용을 통합한 건, Anthropic이 Claude Code와 Cowork로 만들어낸 "AI가 직접 일하는" 경험을 따라잡으려는 움직임입니다. 컴퓨터 사용 기능, 금융 플러그인, 1M 컨텍스트 — 전부 "에이전트가 실제 업무를 대신 처리"하는 방향입니다.

둘째, 벤치마크에서 Claude가 SWE-Bench Pro 데이터를 안 낸 게 오히려 시사하는 바가 큽니다. 기존 SWE-bench에서 80.8%를 찍은 Claude가 Pro 버전에서 침묵하는 건, 아직 준비 중이거나 별도의 발표를 계획하고 있을 가능성이 있습니다. Anthropic의 대응이 어떻게 나올지 주시할 필요가 있습니다.

셋째, 현실적인 조언을 드리면 지금 잘 쓰고 있는 도구를 급하게 바꿀 필요는 없습니다. Claude Code로 개발하고 있다면 계속 쓰세요. ChatGPT Plus를 쓰고 있다면 GPT 5.4 Thinking을 바로 써볼 수 있으니 새 기능을 테스트해보세요. 가장 현명한 접근은, 두 모델을 병렬로 테스트하면서 자신의 업무에 맞는 모델을 찾는 것입니다.

AI 모델 전쟁은 이제 "누가 더 똑똑한가"에서 "누가 더 일을 잘 해주는가"로 옮겨가고 있습니다. GPT 5.4의 등장이 의미하는 건, 그 전환점이 생각보다 빨리 왔다는 거예요.