Claude Sonnet 4.6 출시 - 숨겨진 핵심 기능?

클로드 소메 46을 소개합니다


2월 17일, Anthropic이 Claude Sonnet 4.6을 공식 출시했습니다. Opus 4.6 공개 14일 만입니다. Anthropic의 4개월 주기 업데이트 패턴이 이번에도 유지되었고, Sonnet 4.6은 Free와 Pro 구독자 모두의 기본 모델로 즉시 전환되었습니다.

주요 변화를 정리하면 다음과 같습니다.

성능 개선

코딩 능력, 지시사항 준수, 컴퓨터 조작(Computer Use) 세 영역에서 눈에 띄는 개선이 있습니다. 벤치마크 수치를 보면 확연합니다.

벤치마크

설명

Sonnet 4.6 성적

ARC-AGI-2

인간 특유 지능 측정

60.4%

SWE-Bench

소프트웨어 엔지니어링 평가

최고점

OS World

컴퓨터 조작 평가

최고점

사용자 선호도 테스트에서도 Sonnet 4.5 대비 70%, Opus 4.5 대비 59%가 Sonnet 4.6을 선택했습니다.
중간 등급 모델이 이전 세대 최상위 모델을 선호도에서 앞선 겁니다.

다만 Opus 4.6, Gemini 3 Deep Think, 일부 GPT 5.2 변형은 여전히 더 높은 점수를 기록합니다.
Sonnet 4.6은 "모든 면에서 최고"라기 보다 "가성비 최강"에 가깝습니다.


100만 토큰 컨텍스트 윈도우

베타로 제공되는 100만 토큰 컨텍스트 윈도우는 이전 Sonnet 모델 대비 2배입니다.
Anthropic은 "전체 코드베이스, 긴 계약서, 수십 개의 연구 논문을 단일 요청으로 처리할 수 있다"고 설명합니다.

Sonnet 4.6의 숨겨진 기능

Sonnet 4.6과 함께 조용히 공개된 기능 하나가 있습니다. 다이나믹 필터링(Dynamic Filtering).

다이나믹 필터링이 뭔가?

Claude가 웹 검색 결과를 처리하기 전에 Python 코드를 자동으로 작성하여 검색 결과를 정제하는 기능입니다.

기존 방식은 이랬습니다: 웹 검색 → 결과 전체를 컨텍스트에 넣음 → 광고, 헤더, 푸터, 사이드바 등 노이즈 포함 → 토큰 낭비 + 정확도 저하.

다이나믹 필터링은 이 과정 사이에 한 단계를 끼워넣습니다: 웹 검색 → Python 코드로 노이즈 자동 제거 → 정제된 결과만 컨텍스트에 넣음.

수치로 보는 효과

지표

개선 폭

응답 정확도

평균 11% 향상

토큰 사용량

24% 절감

BrowseComp (Sonnet)

33.3% → 46.6%

BrowseComp (Opus)

45.3% → 61.6%

DeepsearchQA (Sonnet)

52.6% → 59.4%

DeepsearchQA (Opus)

69.8% → 77.3%

정확도가 올라가면서 동시에 토큰을 덜 쓴다는 건, 비용과 품질이 같은 방향으로 개선된다는 뜻입니다. 보통 AI 성능 개선은 "더 좋은 결과를 위해 더 많은 리소스를 쓰는" 방향인데, 다이나믹 필터링은 그 반대입니다.

적용 방법

API에서 web_search_20260209 도구를 사용하고, 베타 헤더 code-execution-web-tools-2026-02-09를 추가하면 됩니다. 코드 실행 비용은 웹 검색·웹 페치 도구와 함께 사용할 때 무료입니다. 별도 과금 없이 표준 토큰 비용만 발생합니다.

실전에서 어떻게 쓸 수 있을까?

1. 웹 검색 기반 AI 에이전트 즉시 업그레이드

웹에서 정보를 수집해 답변하는 에이전트를 운영 중이라면, Sonnet 4.5에서 4.6으로 바꾸고 다이나믹 필터링을 켜는 것만으로 정확도 11%와 비용 24% 절감을 동시에 얻을 수 있습니다. 모델 교체 한 번으로 두 마리 토끼를 잡는 셈입니다.

2. 긴 문서 처리 워크플로우

100만 토큰 컨텍스트 윈도우를 활용하면, 수십 페이지짜리 계약서나 연구 논문 묶음을 한 번에 넣고 분석할 수 있습니다. 기존에 문서를 쪼개서 처리하던 파이프라인을 단순화할 수 있는 지점입니다.

3. GitHub Copilot 사용자

Claude Sonnet 4.6이 GitHub Copilot에서도 바로 사용 가능합니다. 코딩 벤치마크(SWE-Bench) 최고점을 기록한 만큼, 코드 작성과 디버깅에서 체감할 수 있는 개선이 있을 겁니다.

이번 Sonnet 4.6 출시에서 주목할 건 모델 자체보다 Anthropic의 제품 전략 변화라고 봅니다.

다이나믹 필터링은 "더 똑똑한 모델을 만들겠다"가 아니라 "모델이 받는 입력을 더 깨끗하게 만들겠다"는 접근입니다. 모델 파라미터를 키우는 대신, 모델이 처리하는 데이터의 품질을 높여서 같은 효과를 내는 거죠. 이건 꽤 실용적인 방향 전환입니다. 사용자 입장에서는 모델이 더 똑똑해졌는지, 입력이 깨끗해졌는지 구분할 필요 없이 "결과가 좋아졌다"만 체감하면 되니까요.

한국에서 AI 에이전트를 만드는 분들에게 더 의미 있는 지점이 있습니다. 한국어 웹 검색 결과는 영어보다 노이즈가 심합니다. 네이버 블로그 광고, 쇼핑 링크, 키워드 스터핑된 SEO 페이지가 검색 결과에 섞여 들어오는 비율이 높죠. 다이나믹 필터링이 이런 노이즈를 Python 코드로 걸러낸다면, 한국어 에이전트에서의 개선 폭은 영어 벤치마크 수치(11%)보다 클 가능성이 있습니다. 다만 아직 한국어 웹 검색에 대한 별도 벤치마크는 공개되지 않았으니, 직접 테스트해볼 필요가 있습니다.