Claude Code 1M Context, 넘으면 안 되는 선이 있습니다
2026년 3월 13일, Anthropic이 Claude Opus 4.6과 Sonnet 4.6의 1M 토큰 컨텍스트를 정식(GA)으로 전환했습니다. 베타 딱지가 떨어졌고, 공식 문서에는 “표준 요금으로 이용 가능”이라는 문구가 붙었습니다. 그런데 막상 공식 가격표를 보면 얘기가 다릅니다. 200,000토큰을 딱 1개만 넘어도 전체 입력 토큰에 2배 요금이 붙습니다.
MRCR 1M: Opus 76% vs Sonnet 4.5 18.5%
컴팩션 15% 감소 (Anthropic GA 발표)
GA 전환으로 뭐가 달라진 건가요
Claude Code 1M Context는 2026년 3월 13일부터 정식으로 모든 Claude Code 사용자(Max·Team·Enterprise 플랜)에게 자동 적용됩니다. 그 전까지는 베타 상태라 claude-opus-4-6-20260205 모델 ID에 별도 헤더를 달아야 했고, Sonnet 4.6의 경우 200K 초과 시 입력 토큰에 2배 요금이 붙는 “프리미엄 구간”이 존재했습니다.
GA 전환 후 가장 크게 달라진 점은 두 가지입니다. 첫째, 특별 헤더나 별도 모델 버전 없이 표준 엔드포인트로 1M 토큰까지 요청할 수 있습니다. 둘째, Anthropic 공식 발표에 따르면 컴팩션(자동 요약 압축) 발생 횟수가 15% 감소했습니다. (출처: Anthropic GA 공지, 2026.03.13)
그런데 “표준 요금”이라는 표현이 헷갈립니다. 표준 요금이 적용된다는 말은 “200K 이하 구간은 기존 가격 그대로, 200K 초과 구간은 여전히 2배 요금”이라는 뜻입니다. GA가 됐다고 해서 1M 전 구간이 같은 가격이 되는 게 아닙니다.
200K라는 선, 왜 이렇게 중요한가요
Anthropic의 공식 가격표(2026.03.13 기준)에서 Opus 4.6의 구조는 아래와 같습니다.
| 구간 | Opus 4.6 입력 | Opus 4.6 출력 | Sonnet 4.6 입력 | Sonnet 4.6 출력 |
|---|---|---|---|---|
| 0 ~ 200K 토큰 | $5.00/M | $25.00/M | $3.00/M | $15.00/M |
| 200K 초과 시 전체 | $10.00/M (×2) | $37.50/M (×1.5) | $6.00/M (×2) | $22.50/M (×1.5) |
(출처: Anthropic 공식 가격 페이지 claude.com/pricing, 2026.03.13 기준)
💡 공식 가격표와 실제 청구액을 같이 놓고 보니 이런 차이가 보였습니다
200K 이하 vs. 200K 초과 시 요금 차이는 단순히 “초과분에만 2배”가 아닙니다. 200K를 단 1개라도 넘는 순간 해당 요청의 전체 입력 토큰 금액이 2배로 전환됩니다. 예를 들어 입력 199,000토큰 → Opus 기준 $0.995, 입력 201,000토큰 → $2.010. 단 2,000토큰 추가로 $1.015가 더 나오는 구조입니다. 역산하면 이 2,000토큰의 실효 단가는 1M당 $507.50입니다.
(직접 계산: 201,000 × $10/1,000,000 = $2.010 vs 199,000 × $5/1,000,000 = $0.995)
이 구조가 핵심입니다. 대부분의 일반적인 Claude Code 세션은 50K~120K 토큰 범위에서 움직입니다. 1M 모델을 선택해도 실제 컨텍스트가 200K를 넘지 않는 한 표준 요금 그대로 청구됩니다. 반대로 대규모 코드베이스를 통째로 올리거나 장시간 에이전트 작업을 돌릴 때 무심코 200K를 넘기면 그 순간 요금 구조가 확 바뀝니다.
Sonnet 4.6으로 1M 쓰면 안 되는 이유
가격이 저렴한 Sonnet 4.6을 1M 컨텍스트로 돌리면 비용을 아낄 수 있다는 생각이 드는 건 당연합니다. Sonnet 4.6은 Opus 4.6의 약 40% 가격(표준 구간 기준 $3/$15 per M tokens)이고, 200K 초과 시에도 Opus보다 저렴합니다. 그런데 벤치마크 수치를 보면 판단이 달라집니다.
💡 “더 저렴한 모델”이 오히려 손해가 되는 경우가 여기 있습니다
Anthropic 공식 발표에 따르면, MRCR v2(긴 문서에서 정보를 정확히 찾아내는 벤치마크) 1M 토큰 구간 점수는 Opus 4.6이 76%, Sonnet 4.5가 18.5%입니다. (출처: anthropic.com/news/claude-opus-4-6, 2026.02.05) Sonnet 4.6의 공식 MRCR 점수는 아직 발표되지 않았으나, 4.5 대비 개선됐다 해도 Opus와의 격차는 상당합니다.
즉 200K를 넘기는 작업을 Sonnet으로 돌리면, 2배 요금을 내면서도 실제로는 컨텍스트 후반부에서 정보를 잃을 가능성이 높습니다. 독립적인 테스트에서 Sonnet 4.6은 400K 이상에서 정보 검색 정확도가 눈에 띄게 떨어지는 결과가 나왔습니다. (출처: claudecodecamp.com, Needle-in-a-Haystack 실험, 2026.03.13)
200K를 넘기는 긴 컨텍스트 작업은 비용이 더 들더라도 Opus 4.6으로 진행하는 편이 낫습니다. Sonnet은 200K 이하 범위에서 쓸 때 가성비가 맞습니다.
Claude Code에서 실제로 활성화하는 법
GA 전환 이후 Claude Code에서 1M 컨텍스트를 활성화하는 방법은 간단합니다. 터미널 세션에서 아래 명령어로 모델을 전환하면 됩니다.
/model opus[1m] /model sonnet[1m] /model claude-opus-4-6[1m] /model claude-sonnet-4-6[1m]
Max·Team·Enterprise 플랜이라면 모델 피커에 해당 옵션이 자동으로 표시됩니다. Pro($20/월) 플랜은 기본적으로 Claude Code를 포함하지만 1M 모델 선택이 플랜 범위 내에 포함되는지는 공식 가격 페이지에서 확인이 필요합니다. (확인 필요 — 2026.03 기준 Max 이상 플랜에서 공식 지원 확인됨)
1M을 선택해도 200K 미만이면 요금은 같습니다
1M 모델을 선택한다고 해서 즉시 요금이 달라지지 않습니다. 실제 컨텍스트가 200K 미만인 요청은 표준 요금 그대로 청구됩니다. 1M 모델로 전환해 놓고 일반적인 작업을 해도 비용 손해가 없다는 뜻입니다. 다만 컨텍스트가 누적되면서 200K를 넘는 순간 요금 구조가 전환되므로, 긴 세션 작업 시 컨텍스트 크기를 인식하는 것이 중요합니다.
중간에 자리 비우면 이 요금이 기다립니다
1M 컨텍스트 세션에서 성능을 유지하는 핵심은 캐시 TTL(유지 시간)입니다. Claude의 프롬프트 캐시 TTL은 5분입니다. 세션을 열어두고 5분 이상 자리를 비우면 캐시가 만료되고, 다음 요청 시 전체 컨텍스트를 처음부터 다시 처리하는 “콜드 스타트”가 발생합니다.
💡 “캐시가 따뜻할 때”와 “차가울 때”의 시간 차이를 실측해보니
실측 데이터(claudecodecamp.com, 2026.03.13)에 따르면, 500K 컨텍스트 기준 캐시 웜(warm) 상태의 첫 토큰 출력까지 약 3.5초, 캐시 콜드(cold) 상태에서는 약 35초가 소요됩니다. 이 수치를 1M 토큰으로 외삽하면 콜드 스타트 대기 시간은 60~90초로 추정됩니다. 즉 잠깐 자리를 비웠다가 돌아왔을 때 1~2분을 그냥 기다려야 하는 상황이 됩니다.
더 중요한 건 요금입니다. 캐시 웜 상태의 캐시 읽기 요금은 표준 구간에서 Opus 기준 $0.50/M이지만, 200K를 넘긴 세션의 캐시 읽기는 $1.00/M으로 2배입니다. 캐시를 잘 활용하면 첫 요청 이후 후속 요청 비용이 크게 줄지만, 캐시가 만료된 상태에서 매 턴마다 콜드 스타트가 발생하면 비용과 대기 시간 모두 급증합니다.
작업 중 자리를 자주 비우는 편이라면 1M 세션 관리가 오히려 번거로워질 수 있습니다. 이런 경우엔 200K 범위 내에서 세션을 유지하거나 /clear로 컨텍스트를 리셋한 뒤 재시작하는 방식이 비용 면에서 유리합니다.
정말 1M이 필요한 경우와 아닌 경우
Anthropic 공식 발표에 따르면 1M 토큰은 약 75,000줄의 코드 또는 750,000단어에 해당합니다. 대부분의 일반적인 Claude Code 세션은 50K~120K 구간에서 컴팩션 없이 작동합니다. Anthropic GA 발표에서 언급한 “컴팩션 15% 감소”도 전체 사용자 평균 기준이지, 모든 세션이 1M을 필요로 한다는 의미가 아닙니다. (출처: Anthropic GA 공지, 2026.03.13)
| 상황 | 1M 선택 | 이유 |
|---|---|---|
| 대규모 코드베이스 일괄 분석 | ✅ | 전체 레포를 한 번에 올려 교차 분석 가능 |
| 15개 파일 이상 걸친 디버깅 | ✅ | 컴팩션 시 잃는 초기 탐색 결과가 핵심일 때 |
| 계약서·PDF 수백 페이지 인용 분석 | ✅ | 600 페이지를 단일 요청으로 처리 가능 |
| 일반 코딩 작업 (1~5개 파일) | 200K로 충분 | 대부분 50~120K 이내에서 해결됨 |
| 자주 자리를 비우는 환경 | ⚠️ | 캐시 만료 시 콜드 스타트 60~90초 추정 |
| Sonnet 4.6으로 400K 이상 작업 | ❌ | MRCR 정확도가 400K부터 급락 (실측 데이터) |
정보가 문서 중간에 있으면 놓칠 수 있습니다
이건 많은 글에서 빠뜨리는 부분인데, 1M 컨텍스트를 쓰더라도 모델이 전체 정보를 동일한 비중으로 처리하지는 않습니다. 트랜스포머 특성상 컨텍스트의 앞부분과 뒷부분에 더 많은 “어텐션(주의)”이 쏠리고, 중간 부분은 상대적으로 덜 처리되는 현상(“lost in the middle”)이 발생합니다. 1M 컨텍스트를 활용할 때 핵심 정보나 참조해야 할 문서를 컨텍스트의 중간이 아닌 시작 또는 마지막 부분에 배치하면 정확도가 올라갑니다.
자주 나오는 질문들
Q. Pro($20/월) 플랜에서 Claude Code 1M을 쓸 수 있나요?
Claude Code 자체는 Pro 플랜에 포함돼 있습니다. 다만 1M 컨텍스트 창의 Max/Team/Enterprise 전용 공식 지원 여부는 claude.com/pricing 공식 가격 페이지에서 직접 확인해야 합니다. API 방식으로 사용하는 경우에는 플랜과 무관하게 토큰 단위 과금이 적용됩니다.
Q. 200K를 넘긴 게 요금에 얼마나 영향을 주는지 미리 알 수 있나요?
Claude Code 세션 중에는 현재 컨텍스트 크기를 확인할 수 있습니다. API 응답의 usage 필드에서 input_tokens 값을 확인하면 되고, Claude Code 인터페이스에서도 컨텍스트 사용량 표시가 제공됩니다. 200K를 넘기기 전에 필요하다면 /clear로 컨텍스트를 정리하거나 컴팩션을 수동으로 유도할 수 있습니다.
Q. Gemini 2.5 Pro도 1M을 지원하는데 Claude와 어떻게 다른가요?
Q. Batch Processing과 함께 쓰면 비용을 절반으로 줄일 수 있나요?
Anthropic Batch Processing은 표준 API 요금의 50%를 적용합니다. 단, 실시간 응답이 필요 없는 비동기 작업에만 사용할 수 있습니다. 1M 컨텍스트 요청에도 Batch 처리가 가능하며, Prompt Caching과 병행하면 반복적인 대규모 문서 처리 비용을 상당히 낮출 수 있습니다. 다만 200K 초과 시 2배 요금에 적용되는 50% 할인이므로 표준 구간 대비 절대 금액은 여전히 높습니다.
Q. GA 전환 전에 베타로 사용하던 것과 지금은 뭐가 다른가요?
가장 큰 차이는 접근 방식입니다. 베타 시절에는 Anthropic-Beta 헤더를 요청에 포함해야 했고, Sonnet 4.6의 경우 200K 초과 시 2배 입력 요금이라는 동일한 프리미엄이 존재했습니다. GA 전환 후에는 헤더 없이 표준 엔드포인트로 사용하고, Claude Code에서는 /model opus[1m] 명령 하나로 전환됩니다. 요금 구조 자체(200K 기준 2배 전환)는 GA 이후에도 유지됩니다.
마치며
Claude Code 1M Context의 GA 전환은 실질적인 개선입니다. 헤더 없이 쓸 수 있고, Max·Team 플랜에서는 별도 설정 없이 바로 활성화됩니다. Anthropic이 발표한 컴팩션 15% 감소는 장시간 코드 작업에서 분명히 체감되는 수치입니다.
다만 “GA = 전 구간 동일 요금”이 아니라는 점, 200K를 1토큰이라도 넘기면 그 요청 전체가 2배 요금으로 전환된다는 점은 실제로 쓰기 전에 정확히 알고 있어야 합니다. 대규모 코드베이스 분석이나 긴 문서 처리처럼 1M이 진짜 필요한 상황이라면 이 비용은 충분히 납득이 됩니다. 반면 일반적인 코딩 작업이라면 1M 모델을 선택해도 실제로 200K를 넘기지 않는 한 추가 비용은 없습니다.
개인적으로는 “필요할 때만 1M을 쓴다”는 판단을 세션 시작 전에 내리는 게 핵심이라고 봅니다. 1M 모델을 켜놓고 작업하다 보면 어느새 200K를 넘겨 있는 경우가 생기거든요. 컨텍스트 크기에 신경을 쓰는 것만으로도 요금을 상당히 제어할 수 있습니다.
📎 본 포스팅 참고 자료
- Anthropic 공식 발표 — Claude Opus 4.6 출시 및 1M Context 베타 공지
https://www.anthropic.com/news/claude-opus-4-6 - AIToolRanked — Claude 1M Context GA 전환 분석 (2026.03.16)
https://aitoolranked.com/blog/claude-1m-context-ga-2026-opus-sonnet-no-premium-pricing - Claude Code Camp — 1M Context Window 실측 실험 및 비용 분석 (2026.03.13)
https://www.claudecodecamp.com/p/claude-code-1m-context-window - Anthropic 공식 가격 페이지
https://claude.com/pricing
본 포스팅은 2026년 3월 20일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 요금 정보는 반드시 Anthropic 공식 가격 페이지(claude.com/pricing)에서 최신 내용을 확인하세요.

댓글 남기기