Claude API
Claude Sonnet 4.6 100만 토큰, 실제로 계산해봤습니다 — 가격 차이 4배
2026년 3월 13일, Anthropic이 조용히 중요한 변화를 발표했습니다. Claude Opus 4.6과 Sonnet 4.6의 100만 토큰 컨텍스트 윈도우가 정식(GA) 전환됐고, 기존에 있던 장기 컨텍스트 할증 요금이 완전히 없어졌습니다. 결론부터 말씀드리면, 200K 토큰 이상 작업에서 최대 4배 가격 차이가 생깁니다.
정식 지원
(기존 2배 → 폐지)
장문 검색 정확도
3월 13일 이전엔 얼마나 비쌌나
Claude Opus 4.6이 2026년 2월 5일에 처음 출시됐을 때, 공식 발표문에는 이런 문구가 명시돼 있었습니다. “Premium pricing applies for prompts exceeding 200k tokens ($10/$37.50 per million input/output tokens)” (출처: Anthropic 공식 블로그, 2026.02.05). 즉, 프롬프트가 200K 토큰을 넘기는 순간, 입력 토큰 가격이 $5 → $10으로 두 배, 출력 토큰은 $25 → $37.50으로 50% 추가 요금이 붙는 구조였습니다.
실제로 당시 국내 사용자들 사이에서도 혼란이 있었습니다. Claude Max $100 요금제를 쓰던 분들이 “평소보다 2배 빠르게 한도가 소진된다”고 경험했는데, 대화가 길어지면서 200K 토큰을 넘겨 할증 구간에 진입했기 때문입니다 (출처: 클리앙 커뮤니티 실사용 사례, 2026.02.06). 할증이 ‘초과분에만’ 붙는 게 아니라 ‘해당 요청 전체’에 붙는 구조였기 때문에 부담이 컸습니다.
Sonnet 4.6도 같은 구조였습니다. 기본 입력가 $3/M였지만 200K를 넘으면 $6/M으로 올라갔습니다. 코드베이스 전체를 올리거나, 긴 문서 분석을 반복하는 작업에서는 이 할증이 예산 계획을 크게 흔드는 요인이었습니다.
💡 공식 발표문과 커뮤니티 실사용 후기를 같이 놓고 보니, 이 할증 구조가 실제로 어떤 식으로 청구서에 나타났는지가 더 선명하게 보였습니다. “가격은 4.5랑 같다”는 홍보 문구 뒤에 200K 초과 요금 조항이 숨어 있었던 셈입니다.
할증 없어진 지금, 실제 계산은 어떻게 되나
2026년 3월 13일부터 Claude Opus 4.6과 Sonnet 4.6의 100만 토큰 컨텍스트 윈도우가 정식(GA)으로 전환됐고, 기존 할증 구조가 완전히 폐지됐습니다. Anthropic 공식 X 계정이 직접 발표한 내용입니다 (출처: @claudeai X 포스트, 2026.03.13). 이제 900K 토큰짜리 요청이나 9K 토큰짜리 요청이나 토큰당 단가는 동일합니다.
실제로 어떤 의미인지 계산식으로 직접 확인해 봤습니다.
| 시나리오 | 2026.02 이전 | 2026.03.13 이후 | 절감액 |
|---|---|---|---|
| Sonnet 4.6 입력 300K 토큰 | $1.80 (할증 적용) | $0.90 | $0.90 (50% ↓) |
| Sonnet 4.6 입력 900K 토큰 | $5.40 | $2.70 | $2.70 (50% ↓) |
| Opus 4.6 입력 500K 토큰 | $5.00 | $2.50 | $2.50 (50% ↓) |
계산 근거: Sonnet 4.6 표준 입력가 $3/1M 토큰. 200K 초과분이 전체 요청에 $6/1M 적용됐던 구조 기준. (출처: Anthropic pricing page, 2026.03.13 기준 현행가 적용)
표에서 주목할 점은 ‘초과분에만’ 할증이 붙는 게 아니었다는 사실입니다. 300K 토큰 요청이면 전체 300K에 할증 단가($6/M)가 적용됐기 때문에, 실제 체감 절감폭이 상당합니다. 월 단위로 장문 작업을 반복하는 팀이라면 이 변화가 예산 계획에 직접 영향을 줍니다.
GPT-5.4와 비교하면 역전되는 지점이 있습니다
Claude Sonnet 4.6이 할증을 없앤 시점에, OpenAI GPT-5.4도 100만 토큰 컨텍스트를 지원합니다. 단순히 “둘 다 1M”이라고 보면 안 됩니다. 요금 구조가 다릅니다.
💡 API 비용만 놓고 보면 “Claude가 비싸다”는 인식이 일반적인데, 장문 컨텍스트 구간에서는 실제로 역전이 일어납니다. 구체적인 요금 구조를 공식 문서로 직접 비교해봤습니다.
GPT-5.4는 272K 토큰 이하 구간에서 입력 $2.50/M으로 Sonnet 4.6($3/M)보다 저렴합니다. 그런데 272K를 넘는 순간, 그 요청의 입력 전체에 2배 요금($5/M)이 적용됩니다. 그것도 초과분이 아닌 전체 세션에. (출처: Substack ‘Product with Attitude’ 분석, 2026.03.17 기준)
| 입력 규모 | GPT-5.4 | Claude Sonnet 4.6 | 비교 |
|---|---|---|---|
| 100K 토큰 | $0.25 | $0.30 | GPT 유리 |
| 300K 토큰 | $1.50 (할증) | $0.90 | Claude 40% 저렴 |
| 700K 토큰 | $3.50 (할증) | $2.10 | Claude 40% 저렴 |
GPT-5.4 가격 기준: 272K 이하 $2.50/M, 초과 시 전체 $5/M 적용. Claude Sonnet 4.6: $3/M 단일 적용. (출처: Substack karozieminski 분석, 2026.03.17)
즉, 300K 이상 입력이 일상적인 작업이라면 Sonnet 4.6이 GPT-5.4보다 약 40% 저렴합니다. 반대로 짧은 단발성 요청이 대부분이라면 GPT-5.4가 유리합니다. 어느 쪽을 쓸지는 실제 사용 패턴을 먼저 확인해야 결정할 수 있는 문제입니다.
100만 토큰, 많기만 하면 뭐하나 — 정확도가 핵심
컨텍스트 윈도우 크기는 ‘용량’이지 ‘능력’이 아닙니다. 이 차이가 중요합니다. 많은 AI 모델들이 큰 컨텍스트를 지원한다고 하지만, 실제로 그 안에서 정보를 정확하게 찾아내는 능력은 모델마다 다릅니다. 컨텍스트가 길어질수록 성능이 떨어지는 이른바 ‘컨텍스트 로트(context rot)’ 현상이 있기 때문입니다.
Anthropic이 이번 GA 발표에서 제시한 수치가 있습니다. MRCR v2 벤치마크 — 수백만 토큰 분량의 문서 속에 숨겨진 정보를 정확히 찾아내는 테스트에서, Opus 4.6은 100만 토큰 기준 78.3%를 기록했습니다. 이전 모델인 Sonnet 4.5는 같은 테스트에서 18.5%에 그쳤습니다 (출처: Anthropic 1M Context GA 발표문, 2026.03.13). 단순히 용량만 늘어난 게 아니라 정확도가 4배 넘게 올라간 것입니다.
MRCR v2 벤치마크 비교 (100만 토큰 기준)
출처: Anthropic 1M Context GA 발표문, 2026.03.13
실제 사용에서 이 수치는 무엇을 의미하냐면, 3000쪽 분량의 문서 두 곳에 숨겨진 정보를 ‘Opus 4.6은 10번 중 약 8번 찾아낸다’는 뜻입니다. Sonnet 4.5는 같은 상황에서 10번 중 2번도 채 찾지 못했습니다. 단순한 요약이나 짧은 대화에서는 이 차이가 안 보이지만, 대용량 계약서 분석이나 코드베이스 전체 리뷰 같은 작업에서 이 격차가 그대로 결과물 품질로 나타납니다.
단, Hacker News에서 개발자들이 지적한 내용도 있습니다. ‘컨텍스트 초반에 명시적으로 거절했던 방향으로 모델이 다시 진행하는’ 케이스가 보고됐습니다. 78.3%는 벤치마크 수치이고, 독립적인 검증은 아직 진행 중인 점은 확인이 필요합니다. (출처: Hacker News 스레드, 2026.03.13)
Pro 플랜이라면 이것 먼저 확인해야 합니다
이번 변화가 자동으로 모든 플랜에 적용된다고 생각하면 안 됩니다. 여기서 한 가지 중요한 차이가 있습니다. Max, Team, Enterprise 플랜 사용자에게는 100만 토큰 컨텍스트가 자동으로 켜집니다. 하지만 Pro 플랜 사용자는 Claude Code에서 직접 /extra-usage를 입력해야 활성화됩니다 (출처: Substack karozieminski 분석, 2026.03.17).
이게 왜 중요하냐면, 단순히 ‘Pro 가입 → 100만 토큰 사용 가능’이 아니라 수동 활성화 단계가 있다는 사실을 모르면 그냥 넘어가게 됩니다. 발표 이후 몇 가지 테스트에서 Pro 사용자가 여전히 기본 컨텍스트 한도에서 작업하고 있던 경우가 보고됐습니다. 별것 아닌 것 같지만, 큰 문서 작업을 하다가 중간에 컨텍스트 잘림이 생기면 그 원인을 파악하는 데 시간이 걸립니다.
API로 직접 연동하는 경우엔 모델 파라미터를 확인해야 합니다. 현재 공식 API 문서 기준으로 claude-sonnet-4-6 모델 스트링을 사용하면 됩니다. 단, API 환경에서도 컨텍스트 처리 한도 설정이 기본값인지 확인하는 게 안전합니다. (출처: Anthropic API 모델 문서, 2026.03 기준)
비용 폭탄이 터지는 경우는 따로 있습니다
할증 요금이 없어졌다고 해서 비용 걱정이 사라진 건 아닙니다. 다른 방향에서 함정이 있습니다. Cisco CX Engineering의 수석 엔지니어는 이렇게 말했습니다. “100만 토큰 윈도우에 무차별적으로 데이터를 밀어 넣으면 쿼리당 비용이 센트(cent)에서 달러(dollar)로 뛴다. 팀들이 모든 걸 컨텍스트에 넣는 것에 흥분해서 월말에 ‘교육적인’ 청구서를 받는 걸 봤다.” (출처: VKTR 분석 기사, 2026.03.09)
실제 수치로 계산해 보면, Sonnet 4.6으로 900K 토큰 입력 + 50K 토큰 출력을 한 번 처리하면 입력 $2.70 + 출력 $0.75, 합계 약 $3.45가 나옵니다. 이걸 에이전트 루프로 10번 반복하면 한 작업에 $34.5가 나옵니다. 할증은 없지만 절대 금액 자체가 적은 건 아닙니다.
Cursor 사용자 중 실제로 AI 도구 콜 한 번이 데이터베이스 전체를 끌어오면서 800K 토큰을 소비한 케이스가 보고됐습니다 (출처: Substack karozieminski, 2026.03.17). 큰 컨텍스트를 쓸 수 있다는 것과 그 비용을 컨트롤한다는 것은 별개입니다. 실제 운영 환경에서는 어떤 데이터를 컨텍스트에 넣을지 설계를 먼저 하는 게 맞습니다.
💡 이번 발표는 “가격 장벽을 낮췄다”는 메시지이지만, 동시에 Anthropic의 API 수익 모델이 토큰 소비량에 의존하고 있다는 뜻이기도 합니다. 할증을 없애는 대신 더 많은 토큰을 편하게 쓰도록 유도하는 구조입니다. 이 맥락을 같이 보면 가격 전략의 방향이 보입니다.
Q&A
Q. Claude Sonnet 4.6 100만 토큰은 지금 당장 쓸 수 있나요?
2026년 3월 13일 기준으로 GA(정식)로 전환됐습니다. Max, Team, Enterprise 플랜은 자동 적용됩니다. Pro 플랜은 Claude Code에서 /extra-usage를 입력해야 합니다. API 사용자는 claude-sonnet-4-6 모델 스트링으로 접근하면 됩니다.
Q. 할증 요금이 완전히 없어진 게 맞나요? 예외 조건은 없나요?
Anthropic 공식 발표(2026.03.13) 기준으로 Opus 4.6과 Sonnet 4.6 모두에서 장기 컨텍스트 할증이 제거됐습니다. 단, US-only inference(미국 전용 추론)는 여전히 1.1배 토큰 가격이 적용됩니다. 해당 기능 사용 시엔 별도 요금 항목을 확인해야 합니다.
Q. 100만 토큰이면 한국어 기준으로 어느 정도 분량인가요?
영어 기준 약 75만 단어로 소설 75권 수준입니다. 한국어는 토크나이저 특성상 영어보다 토큰 소비가 많아 같은 1M 토큰으로 처리할 수 있는 분량이 약 30~40% 적습니다. 코드는 영어에 가까운 밀도를 가져서, 코드베이스 분석에서는 영어 기준치에 가까운 분량을 처리할 수 있습니다.
Q. Opus 4.6과 Sonnet 4.6 중 어느 쪽이 장문 작업에 더 적합한가요?
MRCR v2 정확도 기준으로는 Opus 4.6이 우위입니다. 다만 Sonnet 4.6이 Opus 4.5보다 성능이 높고 가격은 5분의 1 수준입니다($3/M vs $5/M). 코드베이스 검토나 반복 작업이 많다면 Sonnet 4.6을 먼저 써보고, 정확도가 부족할 때 Opus 4.6으로 올리는 방식이 비용 효율상 합리적입니다.
Q. Context Compaction(컨텍스트 압축)과 100만 토큰은 어떻게 같이 쓰나요?
Context Compaction은 긴 대화나 에이전트 작업에서 컨텍스트 한도에 가까워지면 이전 내용을 자동 요약해 공간을 확보하는 기능입니다. 100만 토큰 윈도우와 같이 쓰면 Compaction 발동 빈도가 줄어듭니다. Anthropic 발표에 따르면 GA 전환 후 Compaction 이벤트가 15% 감소했습니다 (출처: Substack karozieminski, 2026.03.17). 단, Compaction은 현재 베타 상태이며 요약 품질에 따라 중요한 맥락이 일부 소실될 수 있어 확인이 필요합니다.
마치며
이번 변화를 한 줄로 정리하면, “200K 초과 시 2배 요금”이라는 조항이 사라지면서 장문 컨텍스트 작업의 비용 예측이 단순해졌습니다. 가격 구조가 단순해질수록 실제로 더 많이 쓰게 되는 경향이 있고, Anthropic 입장에서는 그게 목적일 겁니다.
GPT-5.4보다 300K 이상 구간에서 저렴하다는 점, MRCR v2 78.3%로 장문 검색 정확도에서 경쟁 모델을 앞선다는 점은 공식 수치로 확인됩니다. 반면 비용은 여전히 쌓이기 때문에, 컨텍스트에 무엇을 넣을지를 먼저 설계하는 게 더 중요해졌습니다. 더 큰 창고가 생겼다고 아무거나 다 집어넣으면 비용도, 처리 속도도 버텨주지 않습니다.
이 글에서 다룬 수치와 내용은 2026년 3월 13일 Anthropic 발표 기준입니다. 이후 정책 변경 가능성이 있어 중요한 판단 전에 공식 문서를 직접 확인하는 것을 권장합니다.
본 포스팅 참고 자료
- Anthropic 공식 블로그 — Introducing Claude Opus 4.6 https://www.anthropic.com/news/claude-opus-4-6
- Anthropic 공식 블로그 — Introducing Claude Sonnet 4.6 https://www.anthropic.com/news/claude-sonnet-4-6
- @claudeai X 포스트 — 1M Context GA 발표 (2026.03.13) https://x.com/claudeai
- The New Stack — Anthropic removes long-context surcharge https://thenewstack.io/claude-million-token-pricing/
- Substack karozieminski — Claude 1M Context Window Guide 2026 https://karozieminski.substack.com
- VKTR — Anthropic Claude Opus 4.6 Hits 1M Tokens analysis https://www.vktr.com
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본 포스팅은 2026년 3월 13일 기준 공개 정보를 바탕으로 작성됐습니다. 투자·구매 의사결정 전 공식 문서를 직접 확인하시기 바랍니다.


댓글 남기기