Claude Opus 4.6 / Sonnet 4.6
Anthropic 공식 Docs 확인
Claude API 1M 컨텍스트, 비싸다는 말이 바뀌었습니다
장문 할증이 사라졌습니다. 200K 초과 구간에 붙던 50% 추가 요금이 2026년 3월 13일부터 없어졌고, 900K 토큰 요청도 9K 토큰과 동일한 단가로 처리됩니다. 실제로 얼마나 달라지는지 계산해봤습니다.
무엇이 바뀌었나 — 변경 전후 요금 비교
2026년 3월 13일 이전까지 Claude API는 입력 토큰이 200,000개를 넘는 순간 요금이 올라가는 구조였습니다. Opus 4.6 기준으로 출력 토큰이 200K 이하 구간에서는 $25/MTok이었지만, 200K를 초과하면 $37.50/MTok으로 50% 할증이 붙었습니다. Sonnet 4.6도 마찬가지로 $15 → $22.50이었습니다. 긴 문서 요약, 전체 코드베이스 분석 같은 작업에서 비용이 예측하기 어려웠던 이유가 여기에 있었습니다.
변경 이후에는 단순합니다. 프롬프트 길이에 관계없이 동일 단가. 900K 토큰짜리 요청이나 9K 토큰짜리 요청이나 Opus 4.6 기준 출력은 $25/MTok으로 동일합니다. (출처: Anthropic 공식 Docs — Long context pricing 항목, platform.claude.com/docs/en/about-claude/pricing)
| 모델 | 입력 (≤200K) | 출력 (≤200K) | 입력 (>200K) 구 요금 | 출력 (>200K) 구 요금 | 현재 요금 (전 구간) |
|---|---|---|---|---|---|
| Opus 4.6 | $5/MTok | $25/MTok | $10/MTok | $37.50/MTok | $5 / $25 |
| Sonnet 4.6 | $3/MTok | $15/MTok | $6/MTok | $22.50/MTok | $3 / $15 |
| Haiku 4.5 | $1/MTok | $5/MTok | 변경 없음 | 변경 없음 | $1 / $5 |
※ MTok = 백만 토큰 / 출처: platform.claude.com/docs/en/about-claude/pricing (2026.03.31 기준)
실제 비용 차이, 계산식으로 직접 확인
시나리오: 500K 토큰 입력 + 100K 토큰 출력 (Opus 4.6)
긴 코드베이스 전체를 넘기고 문서를 생성하는 전형적인 에이전트 작업을 가정합니다.
입력 500K 토큰 = 200K × $5 + 300K × $10 = $1.00 + $3.00 = $4.00
출력 100K 토큰 = 100K × $25 (200K 이하이므로 할증 없음) = $2.50
합계: $6.50
입력 500K 토큰 = 500K × $5 = $2.50
출력 100K 토큰 = 100K × $25 = $2.50
합계: $5.00 — $1.50 절감 (약 23% 감소)
시나리오: 800K 토큰 입력 + 200K 토큰 출력 (Opus 4.6, 최대치 근접)
입력: 200K × $5 + 600K × $10 = $1.00 + $6.00 = $7.00
출력: 200K × $37.50 = $7.50
합계: $14.50
입력: 800K × $5 = $4.00
출력: 200K × $25 = $5.00
합계: $9.00 — $5.50 절감 (약 38% 감소)
컨텍스트가 길어질수록 절감 폭이 커집니다. 800K 구간에서는 단일 요청 기준으로 38%가 줄어드는 셈입니다.
공식 Docs와 마케팅 페이지가 다른 이유
직접 확인해보니 흥미로운 점이 있었습니다. anthropic.com/api(마케팅용 가격 안내 페이지)에는 2026년 3월 31일 현재도 200K 이상 구간에 대해 Opus 4.6 입력 $10/MTok, 출력 $37.50/MTok이라는 구 요금이 표시됩니다. 반면 platform.claude.com/docs/en/about-claude/pricing(공식 API Docs)에는 “Long context pricing — Claude Opus 4.6 and Sonnet 4.6 include the full 1M token context window at standard pricing”이라고 명확하게 바뀐 내용이 반영돼 있습니다.
API 호출 시 실제로 적용되는 요금은 Docs 기준입니다. 마케팅 페이지가 아직 업데이트되지 않은 것으로, Anthropic이 공식 이유를 밝히지 않았습니다. 요금을 추정할 때는 반드시 platform.claude.com/docs를 기준으로 삼아야 합니다.
이 차이를 모르면 요금 계산을 잘못 하게 됩니다. 실제 청구는 Docs 기준으로 이루어지지만, 예산 수립 단계에서 마케팅 페이지 수치를 쓰면 과다 계상이 됩니다.
Fast mode가 생각보다 비싼 상황
표준 대비 6배 요금, 언제 정당화되나
Fast mode(현재 beta, research preview)는 Opus 4.6에서만 작동하며 입력 $30/MTok, 출력 $150/MTok입니다. 표준 요금($5/$25)과 비교하면 정확히 6배입니다. (출처: platform.claude.com/docs — Fast mode pricing 항목)
에이전트 루프가 여러 턴으로 돌아가는 구조라면 Fast mode는 오히려 역효과입니다. 한 턴을 빠르게 처리해도 다음 툴 결과를 기다리는 I/O 대기가 병목이 되기 때문에 속도 개선이 체감되지 않고, 비용만 6배로 오릅니다. Fast mode는 단일 긴 응답(예: 보고서 한 번에 생성)에서만 실질적 체감이 가능합니다.
Batch API와의 차이
Fast mode는 Batch API와 동시에 쓸 수 없습니다. 공식 Docs에 “Fast mode is not available with the Batch API”라고 명확하게 나옵니다. 즉 비실시간 대규모 처리를 Fast mode로 돌리는 방식은 아예 불가능합니다. 속도가 필요하지 않은 워크로드에 Fast mode를 켜두면 그냥 비용 낭비입니다.
Batch API와 1M 컨텍스트 조합, 실제로 얼마?
이번 변경에서 주목할 점이 하나 더 있습니다. 공식 Docs에는 “Prompt caching and batch processing discounts apply at standard rates across the full context window”라고 나옵니다. 장문 할증이 사라진 상태에서 Batch API 50% 할인이 1M 전 구간에 동일하게 적용된다는 뜻입니다.
Opus 4.6 Batch 요금은 입력 $2.50/MTok, 출력 $12.50/MTok입니다. 800K 토큰 입력 + 200K 출력 기준으로 계산하면 $2.00 + $2.50 = $4.50입니다. 표준 요금($9.00) 대비 50% 절감이 1M 구간 전체에 적용됩니다.
Batch API는 비동기 처리라 결과 수령에 몇 시간이 걸릴 수 있지만, 실시간성이 필요 없는 대량 문서 처리, 코드베이스 분석, 데이터 추출 작업에서는 가성비가 크게 높아집니다. GPT-4o mini 수준의 단가에 Opus 4.6 성능을 쓸 수 있는 구간이 생긴 셈입니다.
| 시나리오 (Opus 4.6) | 입력 800K | 출력 200K | 합계 |
|---|---|---|---|
| 구 표준 요금 (할증 포함) | $7.00 | $7.50 | $14.50 |
| 현재 표준 요금 | $4.00 | $5.00 | $9.00 |
| Batch API 조합 | $2.00 | $2.50 | $4.50 |
※ 출처: platform.claude.com/docs/en/about-claude/pricing Batch processing 항목 (2026.03.31 기준)
미디어 한도 600개, 실제로 쓸 수 있는 상황
이미지·PDF 한도가 6배 늘었다는 의미
이번 업데이트에서 조용히 바뀐 것 중 하나가 요청당 미디어 한도입니다. 기존 100개에서 600개로 늘었습니다. (출처: The-Decoder, 2026.03.13 — Anthropic drops the surcharge for million-token context windows)
실제로 이게 의미 있는 상황이 있습니다. 설계 도면 600페이지를 한 번에 넘겨서 검토하거나, PDF 형식의 재무 보고서 수백 장을 단일 API 콜로 처리하는 경우입니다. 이전에는 100개 단위로 요청을 분할하고 컨텍스트를 관리해야 했는데, 이제는 하나의 요청으로 처리할 수 있습니다.
단, AWS Bedrock은 제외입니다. The-Decoder 기사에서 직접 확인한 내용으로, 미디어 한도 600개 적용은 직접 API 및 Google Vertex AI, Microsoft Foundry에는 적용되지만 Amazon Bedrock에서는 이번 변경에서 빠졌습니다. Bedrock 위주로 운영 중인 환경에서는 아직 100개 한도가 유효합니다.
Q&A
마치며
솔직히 말하면, 이 정도 변경이 이렇게 조용하게 넘어갔다는 게 더 신기합니다. 800K 토큰 요청 하나에서 $5.50이 줄어드는 건 작은 규모 팀에서도 월 단위로 쌓이면 무시할 수 없는 숫자입니다.
핵심은 세 가지입니다. 첫째, 1M 컨텍스트를 쓰는 데 더 이상 별도의 할증을 계산할 필요가 없습니다. 둘째, Batch API와 조합하면 Opus 4.6을 $4.50짜리 요청으로 처리할 수 있는 구간이 생겼습니다. 셋째, 마케팅 페이지가 아직 구 요금을 보여주고 있으니 실제 비용 계획은 공식 Docs 기준으로만 세워야 합니다.
Fast mode는 에이전트 루프 구조에서는 쓸 이유가 별로 없고, 단일 긴 응답 생성에서만 가치가 있습니다. 이 부분을 구분해서 쓰는 것만으로도 요금이 꽤 달라집니다.
본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 요금은 Anthropic 공식 Docs(platform.claude.com/docs)를 직접 확인해 최신 정보를 기준으로 사용하시기 바랍니다. 본문 내 수치는 2026년 3월 31일 기준 공식 문서에서 직접 확인한 내용입니다.











댓글 남기기