Opus 4.6 / Sonnet 4.6
API 과금 절벽 주의
Claude Code 1M Context,
무조건 좋은 게 아닙니다
2026년 3월 13일, Anthropic이 Claude Code의 1M 토큰 컨텍스트를 정식 지원(GA)으로 전환했습니다. Max·Team·Enterprise 구독자는 추가 비용 없이 바로 쓸 수 있고, API 사용자도 별도 beta 헤더 없이 자동으로 동작합니다. 하지만 200K 토큰을 넘는 순간 요금 구조가 완전히 달라지고, Sonnet 4.6은 600K 이후 정확도가 급격히 떨어집니다. 결론부터 말씀드리면, 1M을 언제 써야 하고 언제 쓰면 안 되는지를 모르면 비용이 3배 이상 뛸 수 있습니다.
1M 구간 정확도
— Sonnet 4.6 미공개
2× 프리미엄 적용 구간
1M Context GA — 실제로 달라진 것 3가지
3월 13일 Anthropic이 공식 블로그를 통해 발표한 내용은 세 줄로 요약됩니다. ① beta 헤더 불필요, ② 표준 단가 적용, ③ Rate Limit 통합. (출처: Anthropic 공식 블로그 claude.com/blog/1m-context-ga, 2026.03.13)
기존에는 200K를 넘는 요청을 보내려면 API 요청 헤더에 anthropic-beta: context-1m-2025-08-07를 붙여야 했고, 그 위에 프리미엄 요금까지 따로 붙었습니다. 지금은 헤더 없이도 자동으로 동작하고, Claude Code v2.1.75 이상을 쓰는 Max·Team·Enterprise 사용자라면 이미 Opus 4.6 세션에서 1M이 기본 적용 중입니다. 코드를 한 줄도 바꾸지 않아도 됩니다.
Rate Limit도 바뀌었습니다. 전에는 1M 컨텍스트 요청에 별도의 낮은 Rate Limit이 붙어 있어서, 200K짜리 요청보다 처리 속도가 훨씬 느렸습니다. 이제 그 전용 제한이 제거되고, 모든 길이의 요청이 동일한 Rate Limit 풀을 씁니다. 단, 900K짜리 요청 하나가 토큰 기준 Rate Limit을 많이 소모한다는 물리적 사실 자체는 그대로입니다.
200K를 넘으면 요금이 2배가 아닌 이유
많은 분들이 “200K 초과분에만 2배가 붙겠지”라고 생각하는데, 공식 문서를 보면 그게 아닙니다. 200K를 1토큰이라도 넘으면, 해당 요청의 전체 입력 토큰에 프리미엄 단가가 적용됩니다. (출처: platform.claude.com/docs/en/about-claude/pricing)
| 요청 규모 (Opus 4.6 입력) | 비용 | 단가 |
|---|---|---|
| 199,000 토큰 | $0.995 | $5/MTok |
| 201,000 토큰 | $2.010 | $10/MTok |
| 추가 2K 토큰의 실질 단가 | +$1.015 | $507/MTok |
출처: claudecodecamp.com 실측 데이터 (2026.03.13) / 수치는 Anthropic 공식 가격 기준 역산. 실제 비용은 캐시 적용 여부에 따라 달라집니다.
2,000 토큰을 더 보내는 대가로 $1.015을 더 낸다는 뜻입니다. 실질 단가로 환산하면 토큰당 $507/MTok, 기준 단가의 100배입니다. 세션이 긴 날 한두 번 넘으면 그날 청구서가 예상과 완전히 달라집니다.
캐시도 마찬가지입니다. 200K를 넘는 세션에서는 캐시 읽기 단가도 2배로 뜁니다. Opus 4.6 기준 평상시 캐시 읽기는 $0.50/MTok인데, 200K 초과 구간에서는 $1.00/MTok으로 올라갑니다. 90% 할인은 여전히 적용되지만, 기준 자체가 높아지는 방식입니다.
Max·Team·Enterprise 구독자는 이 과금 절벽이 없습니다. 구독 플랜 사용량 한도 안에서 1M 컨텍스트를 추가 비용 없이 씁니다. 단, 사용량 한도를 초과하면 초과분에 대해 추가 사용량(extra usage) 요금이 발생합니다. (출처: support.claude.com)
Sonnet으로 1M 쓰면 안 되는 이유
1M Context 지원 모델은 Opus 4.6과 Sonnet 4.6 둘 다입니다. 하지만 같은 기능이라고 같은 품질을 기대하면 안 됩니다. Anthropic이 공개한 벤치마크를 보면 둘의 격차가 꽤 큽니다.
| 모델 | 256K 구간 정확도 | 1M 구간 정확도 (MRCR v2) |
|---|---|---|
| Opus 4.6 | 93% | 78.3% |
| Gemini 3.1 Pro | 측정값 없음 | 26.3% |
| Sonnet 4.5 (비교용) | 정상 | 18.5% |
| Sonnet 4.6 | 정상 | 미공개 |
출처: Anthropic 공식 1M Context GA 블로그 (2026.03.13), claudecodecamp.com 실측 데이터. Sonnet 4.6의 1M MRCR 점수는 Anthropic이 공식 답변을 내놓지 않은 부분입니다.
Sonnet 4.5가 1M 구간에서 18.5%를 기록했다는 건, 100만 토큰 안에 숨겨진 정보 8개 중 약 1.5개만 제대로 찾아낸다는 의미입니다. Sonnet 4.6이 개선됐을 가능성은 있지만, 아직 공식 수치가 없습니다. claudecodecamp.com이 직접 측정한 결과를 보면, Sonnet 4.6도 400K 이상에서는 정확도가 불안정합니다. 프리미엄 요금을 내면서 정보를 제대로 못 찾는 상황이 될 수 있습니다.
Anthropic이 공식 권장하는 접근은 이렇습니다. 일반 코딩과 빠른 작업에는 Sonnet 4.6을 쓰고, 대규모 코드베이스 분석·복잡한 아키텍처 판단·다중 에이전트 조율이 필요한 상황에서만 Opus 4.6으로 전환하는 방식입니다. 1M을 써야 하는 상황이라면 Sonnet이 아니라 Opus를 선택해야 합니다. (출처: Anthropic 모델 선택 가이드, code.claude.com/docs/ko/model-config)
캐시 만료가 더 무서운 이유
Claude Code가 대용량 컨텍스트를 빠르게 처리할 수 있는 이유는 Prompt Caching 덕분입니다. 캐시가 살아있으면 500K 토큰 세션에서도 첫 응답이 3~4초 안에 옵니다. 하지만 캐시가 만료되면 이야기가 완전히 달라집니다.
claudecodecamp.com이 실측한 지연 시간 데이터입니다. (2026.03.13 기준, 캐시 상태별)
| 컨텍스트 크기 | 캐시 히트 TTFT | 콜드 스타트 TTFT |
|---|---|---|
| 50K 토큰 | 약 0.8초 | 약 2초 |
| 200K 토큰 | 약 1.6초 | 약 9초 |
| 500K 토큰 | 약 3.5초 | 약 35초 |
| 1M 토큰 (추정) | 약 5~7초 | 약 60~90초 추정 |
출처: claudecodecamp.com 실측 데이터 (2026.03.13). 1M 콜드 스타트 수치는 500K 실측값 기반 역산 추정치입니다.
500K 세션에서 커피 한 잔 마시고 돌아와 메시지를 보내면, 응답이 시작되기까지 35초를 기다려야 합니다. 1M이라면 1분 이상입니다. 이 시간 동안 Claude는 전체 컨텍스트를 처음부터 다시 읽고 있습니다. 자리를 자주 비우는 스타일이라면 큰 컨텍스트가 오히려 생산성을 낮출 수 있습니다.
캐시 비용도 놓치기 쉽습니다. 200K 이상 구간에서는 캐시 쓰기 단가도 올라갑니다. Opus 4.6 기준 표준 캐시 쓰기는 $6.25/MTok이지만, 200K 초과 구간에서는 $12.50/MTok으로 2배가 됩니다. 1시간 TTL 캐시를 쓰면 $20/MTok까지 올라갑니다. 긴 컨텍스트를 자주 재사용하는 경우에만 캐시 투자가 의미 있습니다. (출처: platform.claude.com/docs/en/about-claude/pricing)
진짜 효과 보는 3가지 상황
위의 제약을 알고도 1M을 쓰는 게 유리한 상황이 분명히 있습니다. Anthropic이 실제 사용 사례로 꼽은 것과 외부 실측 데이터를 교차해보면 세 가지가 공통적으로 등장합니다.
수십만 줄 규모의 코드를 한 번에 컨텍스트에 올리고 분석하는 단발성 요청입니다. 대화를 여러 번 주고받는 것이 아니라, 파일을 통째로 넣고 한 번에 답변을 받는 방식이라 컨텍스트 손상(context rot)이 거의 없습니다. Anthropic에 따르면 기존에는 손실 요약이나 청킹이 필요했던 작업을 이제 단일 패스로 처리할 수 있습니다.
400페이지짜리 계약서를 요약 없이 전체를 올려두고, 특정 조항을 교차 검증하는 작업입니다. 법률 도구 Eve 사례에서 “전체 케이스 파일을 넘나들며 훨씬 높은 품질의 답변을 제공한다”는 ML 엔지니어 Mauricio Wulfovich의 실사용 후기가 Anthropic 공식 블로그에 실려 있습니다.
에러 로그, 스택 트레이스, 연관 파일, 이전 수정 시도가 모두 맥락에 남아있어야 하는 버그 추적 작업입니다. 소프트웨어 엔지니어 Anton Biryukov는 “Datadog·Braintrust·소스코드를 넘나들며 재검색하고 엣지 케이스를 모아 수정을 제안하는 모든 과정을 하나의 창 안에서 처리한다”고 설명했습니다. (출처: Anthropic 공식 1M Context GA 블로그)
플랜별 실제 사용 조건 정리
플랜마다 1M Context의 사용 조건이 다릅니다. 특히 Pro 플랜 사용자가 1M을 쓰면 추가 사용량이 차감된다는 점을 놓치기 쉽습니다.
| 플랜 | Opus 4.6 1M | Sonnet 4.6 1M |
|---|---|---|
| Max / Team Premium | 기본 포함, 추가 비용 없음 | 추가 사용량 필요 |
| Enterprise | 기본 포함, 추가 비용 없음 | 추가 사용량 필요 |
| Pro | 추가 사용량 필요 | 추가 사용량 필요 |
| API 직접 사용 | 표준 단가 (200K 이하) / 2× 단가 (200K 초과) | 동일 |
출처: code.claude.com/docs/ko/model-config (2026.03.13 기준). 플랜 정책은 변경될 수 있으므로 최신 공식 문서를 확인하세요.
Claude Code에서 모델을 전환하는 명령어는 아래와 같습니다. /model opus[1m]으로 입력하면 Opus 4.6 1M 모델로 전환됩니다. Sonnet을 1M으로 쓰고 싶다면 /model sonnet[1m]이고, 현재 설정을 확인하려면 /model만 입력하면 됩니다.
1M을 아예 비활성화하고 싶다면 환경변수 CLAUDE_CODE_DISABLE_1M_CONTEXT=1을 설정하면 됩니다. 기업 컴플라이언스 환경이나 API 비용을 예측 가능하게 유지해야 하는 상황에서 유용합니다. 이 환경변수를 프로젝트 단위로만 적용하려면 .claude/settings.local.json에 넣으면 됩니다. (출처: code.claude.com/docs/ko/model-config)
자주 나오는 질문 5가지
마치며 — 1M, 크다고 무조건 좋은 게 아닙니다
솔직히 말하면, Claude Code 1M Context GA 소식을 처음 봤을 때 “이제 Compaction 걱정 없이 쓴다”는 생각이 먼저 들었습니다. 하지만 공식 문서와 실측 데이터를 같이 놓고 보니 그게 다가 아니더라고요.
가장 핵심적으로 정리하면 이렇습니다. Max·Team·Enterprise 구독자라면 1M을 무료로 쓸 수 있고, 대규모 단발성 분석에서는 확실히 게임이 달라집니다. 하지만 API로 직접 쓰는 개발자라면 200K를 넘는 순간 요금 절벽이 생깁니다. Sonnet 4.6으로 1M을 쓰는 건 공식 MRCR 수치가 나오기 전까지는 조심하는 게 낫고, 캐시가 만료된 채로 긴 세션을 재개하면 최대 1분 넘게 응답 대기를 해야 합니다.
일반적인 코딩 세션 대부분은 여전히 200K 이내에서 끝납니다. 대규모 레거시 분석, 긴 법률 문서 검토, Compaction 없이 완주해야 하는 장기 디버깅. 이 세 가지 상황이 아니라면 굳이 1M 모델을 선택할 이유가 많지 않습니다. 작은 컨텍스트에서 집중도 높은 Sonnet이 1M 구간의 Opus보다 나은 결과를 내는 경우도 많습니다.
기능은 분명히 좋아졌습니다. 쓰기 전에 언제 써야 하고 언제 쓰면 안 되는지를 먼저 파악하는 것, 그게 이번 업데이트에서 가장 중요한 부분입니다.
- Anthropic 공식 블로그 — 1M Context GA 발표 (2026.03.13): claude.com/blog/1m-context-ga
- Claude Code 공식 모델 설정 문서 (한국어): code.claude.com/docs/ko/model-config
- Claude Code Camp 실측 데이터 — 요금 절벽·지연 시간·Needle 테스트 (2026.03.13): claudecodecamp.com
- Martin Alderson — Why Claude’s 1M context length is a big deal (2026.03.15): martinalderson.com
- 갓대희의 작은공간 — Claude Code 1M Context 완전 가이드 (2026.03.16): goddaehee.tistory.com/547
본 포스팅은 2026년 3월 23일 기준으로 작성됐습니다. Anthropic의 서비스 정책·요금·UI·기능은 업데이트로 언제든지 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 최신 정보는 공식 문서(platform.claude.com, code.claude.com)에서 직접 확인해 주세요. 본 포스팅의 수치는 공식 자료 및 외부 실측 데이터를 기반으로 작성됐으며, 개인 환경에 따라 실제 결과가 다를 수 있습니다.


댓글 남기기