Claude Sonnet 4.6 출시 🚀 — Opus급 성능을 Sonnet 가격에, 100만 토큰 컨텍스트까지

Anthropic이 2026년 2월 17일, 역대 가장 강력한 Sonnet 모델인 Claude Sonnet 4.6을 공식 출시했습니다. 코딩, 컴퓨터 사용 (computer use), 장문 컨텍스트 추론, 에이전트 플래닝 (agent planning), 지식 업무, 디자인 등 전 영역에서 전면 업그레이드된 이번 모델은 기존 Sonnet 라인업의 한계를 크게 넘어섰다는 평가를 받고 있습니다.

가격은 그대로, 성능은 Opus급으로

Sonnet 4.6의 가격은 기존 Sonnet 4.5와 동일하게 입력 토큰 100만 개당 $3, 출력 토큰 100만 개당 $15로 책정되었습니다. Free 및 Pro 플랜 사용자라면 claude.ai와 Claude Cowork에서 Sonnet 4.6이 기본 모델로 자동 적용됩니다. 주목할 점은 얼리 액세스 개발자들이 Sonnet 4.6을 이전 모델인 Sonnet 4.5보다 압도적으로 선호했을 뿐 아니라, 2025년 11월 출시된 Anthropic의 최상위 모델인 Claude Opus 4.5보다도 선호하는 경우가 많았다는 것입니다. Sonnet급 비용으로 Opus급 경험을 제공하겠다는 Anthropic의 전략이 구체적인 성과로 이어지고 있는 셈입니다.

컴퓨터 사용 능력의 비약적 도약

Anthropic은 2024년 10월, 업계 최초로 범용 컴퓨터 사용 모델을 선보였습니다. 당시에는 "아직 실험적이며 오류가 잦다"고 스스로 인정했지만, 불과 16개월 만에 상황이 크게 달라졌습니다. AI 컴퓨터 사용의 표준 벤치마크인 OSWorld에서 Sonnet 시리즈는 꾸준한 성능 향상을 기록해왔으며, Sonnet 4.6은 이전 Sonnet 모델들 대비 컴퓨터 사용 능력에서 가장 큰 폭의 도약을 이뤄냈습니다.

OSWorld는 Chrome, LibreOffice, VS Code 등 실제 소프트웨어가 구동되는 시뮬레이션 환경에서 수백 가지 작업을 테스트합니다. 별도의 API나 전용 커넥터 없이 마우스 클릭과 키보드 입력만으로 사람처럼 컴퓨터를 조작하는 능력을 측정하는 것입니다. 얼리 사용자들은 복잡한 스프레드시트 탐색이나 여러 브라우저 탭에 걸친 멀티스텝 웹 양식 작성 등에서 인간 수준의 수행 능력을 경험하고 있다고 보고했습니다. 보험사 고객의 경우 Sonnet 4.6이 자사 보험 벤치마크에서 94%를 기록해 테스트한 모델 중 컴퓨터 사용 최고 성능을 달성했다고 밝혔습니다.

다만 Anthropic은 보안 리스크도 함께 언급했습니다. 악의적인 행위자가 웹사이트에 숨겨진 지시문을 통해 모델을 조종하는 프롬프트 인젝션 공격 (prompt injection attack) 에 대한 저항성을 높이는 데도 집중했으며, Sonnet 4.6은 전작 대비 이 부분에서 큰 개선을 보였다고 설명했습니다.

100만 토큰 컨텍스트 윈도우와 장기 계획 능력

Sonnet 4.6은 베타 기능으로 100만 토큰 (1M token) 컨텍스트 윈도우를 지원합니다. 전체 코드베이스, 방대한 계약서, 수십 편의 논문을 단일 요청에 담을 수 있는 수준입니다. 더 중요한 것은 이 방대한 컨텍스트 전반에 걸쳐 효과적인 추론이 가능하다는 점입니다.

이를 잘 보여주는 사례가 Vending-Bench Arena 평가입니다. 이 벤치마크는 AI 모델이 시뮬레이션된 비즈니스를 시간 흐름에 따라 운영하며 최대 수익을 내는 능력을 겨루는 방식으로 진행됩니다. Sonnet 4.6은 흥미로운 전략을 스스로 개발했습니다. 초반 10개월 동안은 경쟁 모델보다 훨씬 많은 비용을 투자해 생산 역량을 확보한 뒤, 마지막 구간에서 수익성 극대화로 방향을 전환하는 것이었습니다. 이 전략적 피벗 덕분에 Sonnet 4.6은 경쟁 모델들을 큰 차이로 앞질렀습니다.

코딩 작업에서의 실질적 개선

Claude Code에서 진행한 내부 테스트에 따르면, 사용자들은 Sonnet 4.6을 Sonnet 4.5보다 약 70%의 비율로 선호했습니다. 코드를 수정하기 전 컨텍스트를 더 꼼꼼히 읽고, 중복 로직을 줄이며 공유 로직을 통합하는 방식이 개발자들에게 높은 평가를 받았습니다. 특히 장시간 세션에서 이전 모델 대비 훨씬 덜 답답하다는 반응이 많았습니다.

놀라운 점은 사용자들이 Sonnet 4.6을 Opus 4.5보다도 59%의 비율로 선호했다는 것입니다. 과도한 엔지니어링이나 "게으름" 현상이 줄었고, 지시 사항 이행 능력이 향상되었으며, 성공을 잘못 주장하거나 환각 (hallucination)을 일으키는 빈도가 감소했다는 평가가 이어졌습니다. 대규모 코드베이스 탐색이 필요한 복잡한 버그 수정이나 에이전트 코딩 (agentic coding) 워크플로우에서 특히 두드러진 성과를 보이고 있습니다.

프런트엔드, 문서 이해, 금융 분석까지

얼리 고객들은 프런트엔드 코드와 금융 분석 분야에서 특히 큰 개선을 체감했다고 보고했습니다. 시각적 결과물이 더 세련되어졌고, 레이아웃·애니메이션·디자인 감각이 이전 모델 대비 눈에 띄게 향상되었다는 평가가 독립적으로 여러 고객에게서 나왔습니다. 프로덕션 품질에 도달하기까지 필요한 반복 횟수도 줄었습니다.

기업 문서 이해 능력을 측정하는 OfficeQA 벤치마크에서는 Opus 4.6과 동등한 성능을 기록했으며, 금융 서비스 벤치마크에서는 Sonnet 4.5 대비 답변 정확도가 크게 향상되었습니다. Box는 실제 엔터프라이즈 문서 기반의 심층 추론 및 에이전트 작업 테스트에서 Sonnet 4.6이 Sonnet 4.5를 15퍼센트포인트 앞섰다고 밝혔습니다.

바이브코더에게 의미하는 것

Claude Sonnet 4.6은 단순한 점진적 업그레이드가 아닙니다. 이전에는 Opus급 모델을 써야만 가능했던 작업들이 이제 Sonnet의 비용으로 처리 가능해졌다는 점에서, AI 기반 개발 워크플로우의 경제성을 근본적으로 바꿀 수 있는 모델입니다. 대규모 코드베이스 분석, 복잡한 에이전트 파이프라인 구축, 컴퓨터 사용 자동화 등 바이브코딩의 핵심 시나리오 전반에서 체감할 수 있는 수준의 개선이 이루어졌습니다. Opus 헤비 유저라면 Sonnet 4.6이 실질적인 대안이 될 수 있는지 지금 바로 테스트해볼 시점입니다. > >

📎 출처: [Anthropic 뉴스룸](https://www.anthropic.com/news/claude-sonnet-4-6) >