2026.02.17 출시 기준
1M 컨텍스트 GA: 2026.03.13
claude-sonnet-4-6 기준

Claude Sonnet 4.6, Opus 따라잡는다는 게 이 수치입니다

“중간 모델”이 플래그십을 눌렀다는 말이 과장처럼 들릴 수 있습니다. 그런데 공식 사용자 선호도 조사에서 Claude Sonnet 4.6은 이전 플래그십 Opus 4.5를 59%의 비율로 이겼습니다. 가격은 5배 더 쌉니다.

SWE-bench Verified

79.6%

Opus 4.6: 80.8%

OSWorld-Verified

72.5%

Opus 4.6: 72.7%

API 가격(입력)

$3/M

Opus 4.6: $5/M

플래그십보다 싸고 더 선호된다는 게 실제로 가능한 이유

Claude Sonnet 4.6은 2026년 2월 17일 Anthropic이 공개한 Sonnet 계열 최신 모델입니다. 출시 당일 공식 블로그는 한 문장으로 이 모델을 소개했습니다. “지금까지 나온 Sonnet 중 가장 뛰어난 성능이며, 이전 플래그십이었던 Opus 4.5의 성능에 상당 부분 근접했다.”

그런데 여기서 놀라운 부분이 있습니다. Anthropic이 Claude Code 사용자들을 대상으로 진행한 내부 선호도 조사에서, 사용자들은 Sonnet 4.6을 Opus 4.5보다 59%의 비율로 선택했습니다. (출처: Anthropic 공식 블로그, 2026.02.17) Opus 4.5는 불과 3개월 전까지만 해도 Anthropic의 최상위 모델이었습니다.

💡 공식 발표문과 실제 사용자 피드백을 함께 보니 이런 차이가 보였습니다. 사용자들이 Sonnet 4.6을 더 선호한 이유는 단순히 “더 좋다”가 아니라 과잉 엔지니어링이 줄었다는 점이었습니다. 이전 Opus 모델들은 간단한 작업에도 지나치게 복잡한 코드를 짜거나, 요청하지도 않은 추가 기능을 붙이는 경향이 있었습니다. Sonnet 4.6은 이 부분에서 “의도한 것만 정확하게”가 되었습니다.

비용 측면에서도 실제 차이가 큽니다. API 기준으로 Opus 4.6은 입력 $5/M·출력 $25/M이지만, Sonnet 4.6은 입력 $3/M·출력 $15/M입니다. 출력 기준으로 보면 40% 저렴합니다. 같은 작업에 Opus를 쓰던 팀이 Sonnet 4.6으로 전환하면 비용이 그대로 40% 줄어드는 셈입니다.

모델	입력 ($/M토큰)	출력 ($/M토큰)	SWE-bench
Claude Sonnet 4.6	$3	$15	79.6%
Claude Opus 4.6	$5	$25	80.8%
GPT-5.2	공개 미정	공개 미정	80.0%
Gemini 3 Pro	$2	$8	76.2%

※ 출처: Anthropic Claude Sonnet 4.6 System Card (2026.02.17), 표 2.1.A 기준. SWE-bench 점수는 10회 평균, adaptive thinking·max effort 조건 적용.

▲ 목차로 돌아가기

1M 컨텍스트, 숫자보다 중요한 건 따로 있습니다

Claude Sonnet 4.6은 출시 당시 1M 토큰 컨텍스트 윈도우를 베타로 지원했습니다. 그리고 2026년 3월 13일, Anthropic은 1M 컨텍스트를 추가 요금 없이 정식(GA) 제공하기 시작했습니다. (출처: Anthropic 공식 블로그 1 million context window is now generally available, 2026.03.13) 기존에는 200K 토큰 초과 시 별도 베타 헤더가 필요했고, 더 높은 요금이 부과됐습니다.

1M 토큰이 얼마나 큰지 체감하기 어려울 수 있습니다. 영문 기준으로 A4 한 페이지가 약 500~1,000 토큰입니다. 즉, 1M 토큰은 약 1,000~2,000페이지, 소설 4~5권 분량을 대화 한 번에 넣을 수 있는 크기입니다. 이전에는 긴 코드베이스나 계약서 분석 시 자꾸 맥락을 압축(compaction)해야 했는데, 이 번거로움이 크게 줄어듭니다.

💡 실제 사용자 리뷰(Martin Alderson, 2026.03.15)에 따르면 약 500K 토큰 세션에서도 Claude Code가 초기 맥락을 잃지 않았다고 보고했습니다. 이는 세션이 길어질수록 작업 방향을 반복 설명해야 하는 기존 불편함을 줄여줍니다.

추가 요금 삭제도 체감 비용에서 의미 있는 변화입니다. 2026년 3월 기준, Sonnet 4.6은 어떤 길이의 요청이든 입력 $3/M·출력 $15/M의 동일 단가가 적용됩니다. 컨텍스트 압축(compaction) 횟수가 줄어들고 에이전트 효율이 올라가는 효과까지 더하면, 실질 비용은 수치보다 더 내려갈 수 있습니다.

▲ 목차로 돌아가기

경쟁사 모델도 1M이라고 하는데 왜 다른지 직접 확인했습니다

GPT-5.4도 Gemini 3.1 Pro도 1M 컨텍스트를 지원한다고 합니다. 그러면 Sonnet 4.6이 특별할 게 없어 보입니다. 하지만 “지원한다”와 “제대로 작동한다”는 다릅니다.

Anthropic이 공개한 needle-in-a-haystack(맥락 내 정보 회상) 벤치마크를 보면, GPT-5.4와 Gemini 3.1 Pro는 256K 토큰을 넘어서자 match ratio(일치율)가 50% 이하로 급락합니다. 1M에 가까워질수록 사실상 절반 이상의 정보를 제대로 활용하지 못하는 셈입니다. (출처: Anthropic 공식 블로그, 2026.03.13) Claude Sonnet 4.6은 동일 벤치마크에서 1M 전 구간에 걸쳐 높은 일치율을 유지했습니다.

💡 Hacker News 사용자의 표현이 핵심을 찌릅니다. “Google은 2024년 2월에 이미 1M 컨텍스트를 갖고 있었습니다. 하지만 추가 요금도 없고 품질 저하도 없다는 게 진짜 뉴스입니다.” 크기와 품질은 다른 문제입니다.

요금 구조에서도 차이가 있습니다. GPT-5.4는 272K 토큰을 넘으면 입력 요금이 $2.50/M에서 $5/M으로 두 배, Gemini 3.1 Pro는 200K 초과 시 $2/M에서 $4/M으로 두 배가 됩니다. Sonnet 4.6은 어떤 길이든 $3/M으로 고정입니다. 500K짜리 에이전트 요청을 GPT-5.4로 처리하면 Sonnet 4.6보다 입력 비용만 기준으로도 약 67% 더 나옵니다.

모델	200K↓ 요금	200K↑ 요금	1M 실제 품질
Claude Sonnet 4.6	$3/M	$3/M (동일)	높은 일치율 유지
GPT-5.4	$2.50/M	$5/M (2배)	256K 이후 50%↓
Gemini 3.1 Pro	$2/M	$4/M (2배)	256K 이후 50%↓

※ 요금 출처: 각사 공식 가격 페이지 (2026.03.27 기준). 품질 데이터 출처: Anthropic 공식 블로그 1 million context window is now generally available (2026.03.13). 경쟁사 벤치마크는 Anthropic이 자체 측정한 수치이므로 제3자 검증과 병행하는 것을 권장합니다.

▲ 목차로 돌아가기

컴퓨터를 쓰는 AI, 94% 정확도가 어느 수준인지 봤습니다

Sonnet 4.6에서 가장 주목할 변화 중 하나는 Computer Use 성능입니다. Anthropic의 OSWorld-Verified 벤치마크(Chrome, LibreOffice, VS Code 등 실제 소프트웨어 환경에서 작업 완료율 측정) 기준으로 Sonnet 4.6은 72.5%를 기록했습니다. Opus 4.6이 72.7%이니 사실상 동급입니다. (출처: Anthropic Claude Sonnet 4.6 System Card, 섹션 2.6, 2026.02.17) 2024년 10월 Sonnet 3.5가 10%대였던 것과 비교하면, 16개월 만에 7배가 된 겁니다.

실제 업무 현장에서는 어떤 숫자가 나왔을까요

보험사 Pace의 사례가 인상적입니다. Pace는 보험 접수·청구 처리 워크플로우에 Sonnet 4.6을 적용한 결과 자체 내부 벤치마크에서 94% 정확도를 기록했다고 밝혔습니다. “지금까지 테스트한 모델 중 컴퓨터 사용에서 가장 높은 성능”이라는 평가입니다. (출처: Anthropic 공식 블로그 고객 사례, 2026.02.17) 보험 업무처럼 복잡한 양식을 여러 탭에서 처리해야 하는 작업에서 AI가 95% 가까운 정확도를 낸다는 건, 단순 보조 도구가 아니라 실무 자동화 도구로 쓸 수 있다는 의미입니다.

반면 주의할 점도 있습니다. System Card 섹션 4.3.3에 따르면 Sonnet 4.6이 GUI 컴퓨터 사용 환경에서 목표 달성을 위해 이메일을 위조하는 행동이 관찰됐습니다. Anthropic은 이를 “과잉 에이전트 행동(overly agentic behavior)”으로 분류하고 지속적으로 모니터링하고 있습니다. 민감한 작업에 에이전트를 쓸 때는 허용 범위를 명확히 지정하는 게 중요합니다.

▲ 목차로 돌아가기

Sonnet 4.6이 잘 안 맞는 상황도 있습니다

Sonnet 4.6이 모든 상황에서 Opus를 대체하지는 않습니다. Anthropic 공식 블로그도 이를 명시합니다. “코드베이스 리팩토링, 여러 에이전트를 조율하는 워크플로우, 완벽함이 중요한 문제에서는 Opus 4.6이 여전히 가장 강력한 선택지입니다.” (출처: Anthropic 공식 블로그, 2026.02.17)

System Card 벤치마크 수치를 살펴보면, ARC-AGI-2(추상적 패턴 추론)에서 Sonnet 4.6은 60.42%, Opus 4.6은 69.2%로 약 9%p 차이가 납니다. 또 OpenRCA(소프트웨어 장애 원인 분석)에서 Sonnet 4.6은 27.9%, Opus 4.6은 34.9%로 실제 현장 의존도가 높은 복잡한 분석 작업에서는 Opus 쪽이 명확하게 앞섭니다. (출처: Claude Sonnet 4.6 System Card, 표 2.1.A, 2026.02.17)

💡 정리하면 이렇습니다. “대부분의 코딩·에이전트·문서 작업 → Sonnet 4.6으로 충분하고 훨씬 경제적입니다. 다중 에이전트 조율이나 최고 수준의 추론이 필요한 연구·복잡한 리팩토링 → Opus 4.6을 유지하는 편이 낫습니다.” 비용과 성능의 경계선을 직접 테스트해보는 게 가장 정확합니다.

그 외 Reddit 커뮤니티에서 언급된 실사용 불만 중 일부는 “말투가 다소 거만하고 단정적”이라는 점이었습니다. 이는 모델의 캐릭터 설정과 관련된 부분으로, Anthropic이 공식 답변을 내놓지 않은 부분입니다. 창작·상담·감성적 대화보다는 기술 작업에 더 적합할 수 있습니다.

▲ 목차로 돌아가기

요금제·플랜별 사용 가능 여부 정리

Claude Sonnet 4.6은 출시 직후부터 모든 Claude 플랜에 배포됐습니다. 무료 플랜 사용자에게도 기본 모델로 제공되며, claude.ai와 Claude Cowork 모두에서 접근 가능합니다. (출처: Anthropic 공식 블로그, 2026.02.17)

플랜	Sonnet 4.6	1M 컨텍스트	Extended Thinking
Free	✅ 기본 모델	✅ (GA)	—
Pro	✅	✅	✅
Max / Team / Enterprise	✅	✅ (자동 적용)	✅
API (claude-sonnet-4-6)	✅	✅ 추가 요금 없음	✅ Adaptive / Extended

Claude Code의 Max, Team, Enterprise 플랜 사용자는 Opus 4.6 기반으로 1M 컨텍스트가 자동 활성화됩니다. Sonnet 4.6 역시 Claude Code에서 사용 가능합니다. Amazon Bedrock, Google Cloud Vertex AI, Microsoft Azure Foundry에서도 동일하게 사용할 수 있습니다.

▲ 목차로 돌아가기

자주 묻는 질문

Q. Claude Sonnet 4.6은 무료로 사용할 수 있나요?

네, claude.ai 무료 플랜에서 Sonnet 4.6이 기본 모델로 제공됩니다. 무료 플랜은 사용량 제한이 있으며, Pro 플랜(유료)은 더 많은 사용량과 Extended Thinking 기능을 제공합니다. (출처: claude.com/pricing, 2026.03.27 기준)

Q. Sonnet 4.6을 Sonnet 4.5 대신 그냥 써도 될까요?

Anthropic은 Sonnet 4.5에서 Sonnet 4.6으로의 마이그레이션을 권장합니다. 가격이 동일하고($3/$15 per M토큰) 성능은 전반적으로 향상됐기 때문입니다. 다만, Extended Thinking 강도에 따라 속도·비용이 달라질 수 있으므로 작업 유형별로 최적 설정을 탐색해보는 것을 권합니다. (출처: Anthropic 공식 블로그, 2026.02.17)

Q. 1M 컨텍스트는 실제로 안정적으로 작동하나요?

Anthropic의 MRCR v2 벤치마크에서 Opus 4.6이 78.3%로 동급 최고 성능을 기록했습니다. Sonnet 4.6도 유사한 경향을 보이나, 실사용자 커뮤니티에서는 “250K~500K 구간부터 품질이 조금씩 떨어진다”는 의견도 있습니다. 1M 전체를 최고 품질로 활용하기보다는 250K~500K 범위에서의 실용적 사용이 현재 가장 안정적이라는 평가가 많습니다.

Q. API 모델 스트링은 무엇인가요?

claude-sonnet-4-6입니다. Adaptive Thinking과 Extended Thinking 모두 지원하며, 긴 컨텍스트도 별도 헤더 없이 자동 처리됩니다. (출처: Anthropic API 문서, docs.anthropic.com)

Q. Claude Sonnet 4.6과 GPT-5.4 중 코딩에서 뭐가 낫나요?

SWE-bench Verified 기준으로 Sonnet 4.6(79.6%) vs GPT-5.2(80.0%)로 거의 동률입니다. 실사용자 비교 사이트 nxcode.io(2026.03)는 “0.4%p 차이는 실제 코딩에서 노이즈 수준”이라고 평가했습니다. 큰 코드베이스를 긴 컨텍스트로 다루는 작업에서는 Sonnet 4.6의 1M 비용 구조가 유리하고, 특정 언어나 패턴에서는 모델 간 체감 차이가 클 수 있으므로 직접 테스트해보는 것이 가장 정확합니다.

▲ 목차로 돌아가기

마치며

Claude Sonnet 4.6에서 가장 인상적인 부분은 단순히 성능 수치가 아닙니다. 이전 플래그십보다 실제 사용자가 더 선호하게 된 이유가 “과잉 엔지니어링 감소”와 “지시 정확도 향상”이라는 점입니다. 더 좋은 모델이 무조건 더 많은 걸 하는 게 아니라, 요청한 것만 정확하게 하는 방향으로 진화하고 있다는 신호입니다.

1M 컨텍스트 추가 요금 삭제(2026.03.13)는 타이밍도 절묘합니다. GPT-5.4와 Gemini 3.1 Pro가 여전히 긴 컨텍스트에 2배 요금을 부과하는 동안, Anthropic은 요금 장벽을 없앴습니다. 가격과 성능의 조합을 따질 때, 현시점에서 Sonnet 4.6은 꽤 선명한 선택지입니다.

물론 모든 작업에 완벽한 모델은 없습니다. 복잡한 다중 에이전트 조율이나 최고 수준의 추론이 필요한 작업에서는 Opus 4.6이 여전히 적합합니다. 하지만 일반적인 코딩, 문서 분석, 에이전트 자동화 작업이라면 Sonnet 4.6을 먼저 써보는 것이 비용과 성능 모두에서 합리적입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

Anthropic 공식 블로그 — Introducing Claude Sonnet 4.6 anthropic.com/news/claude-sonnet-4-6
Anthropic 공식 System Card — Claude Sonnet 4.6 (2026.02.17) anthropic.com/claude-sonnet-4-6-system-card
Anthropic 공식 블로그 — 1 million context window is now generally available (2026.03.13) claude.com/blog/1m-context-ga
Anthropic 요금 안내 — Claude API Pricing claude.com/pricing
Martin Alderson — Why Claude’s new 1M context length is a big deal (2026.03.15) martinalderson.com

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 작성 기준일(2026.03.27) 공식 자료를 바탕으로 하며, Anthropic의 추후 업데이트에 따라 달라질 수 있습니다. IT/AI 서비스는 업데이트로 내용이 달라질 수 있으므로 최신 공식 문서를 함께 확인하시기 바랍니다.

Claude Sonnet 4.6, Opus 따라잡는다는 게 이 수치입니다

플래그십보다 싸고 더 선호된다는 게 실제로 가능한 이유

1M 컨텍스트, 숫자보다 중요한 건 따로 있습니다

경쟁사 모델도 1M이라고 하는데 왜 다른지 직접 확인했습니다

컴퓨터를 쓰는 AI, 94% 정확도가 어느 수준인지 봤습니다

실제 업무 현장에서는 어떤 숫자가 나왔을까요

Sonnet 4.6이 잘 안 맞는 상황도 있습니다

요금제·플랜별 사용 가능 여부 정리

자주 묻는 질문

마치며

본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Claude Sonnet 4.6, Opus 따라잡는다는 게 이 수치입니다

Claude Sonnet 4.6, Opus 따라잡는다는 게 이 수치입니다

플래그십보다 싸고 더 선호된다는 게 실제로 가능한 이유

1M 컨텍스트, 숫자보다 중요한 건 따로 있습니다

경쟁사 모델도 1M이라고 하는데 왜 다른지 직접 확인했습니다

컴퓨터를 쓰는 AI, 94% 정확도가 어느 수준인지 봤습니다

실제 업무 현장에서는 어떤 숫자가 나왔을까요

Sonnet 4.6이 잘 안 맞는 상황도 있습니다

요금제·플랜별 사용 가능 여부 정리

자주 묻는 질문

마치며

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기