Claude Code v2.1.75+ 기준
Claude Opus 4.6 1M 컨텍스트, Max 플랜이어도 막히는 조건이 있습니다
2026년 3월 13일, Anthropic이 Opus 4.6과 Sonnet 4.6의 1M 컨텍스트 윈도우를 정식(GA) 전환했습니다. 추가 요금 없이, beta header 없이, 기존 코드 수정 없이 — 공식 발표는 이렇게 나왔습니다. 막상 써보면 다릅니다. Max $200 플랜을 쓰면서도 rate limit에 걸리는 케이스가 GitHub 이슈로 이미 보고됐고, 1M을 꽉 채워 쓰면 오히려 정확도가 떨어진다는 커뮤니티 보고도 있습니다. 공식 문서와 실사용 데이터를 같이 놓고 직접 확인했습니다.
1M 컨텍스트 정식 지원, 뭐가 바뀐 건지 먼저
2026년 3월 13일 이전까지 Claude Opus 4.6 1M 컨텍스트는 베타 상태였습니다. 200K 토큰을 넘어서면 beta header를 별도로 붙여야 했고, 입력 요금이 표준의 두 배로 뛰었습니다. 실제로 Sonnet 4 기준으로 200K 초과 구간은 입력 $6/MTok, 출력 $22.50/MTok — 일반 요금 대비 정확히 두 배였습니다. (출처: Anthropic 공식 가격 문서, platform.claude.com/docs/en/about-claude/pricing)
3월 13일부터 달라진 핵심은 세 가지입니다. 첫째, Opus 4.6과 Sonnet 4.6에 한해 900K짜리 요청도 9K짜리 요청과 같은 단가($5/$25 MTok)로 청구됩니다. 둘째, 200K를 넘어가도 beta header가 필요 없습니다. 기존 코드를 그대로 두면 자동으로 1M 구간까지 처리됩니다. 셋째, 전용 rate limit이 사라졌습니다. 기존에는 1M 요청에 별도 처리량 제한이 붙었는데, 이제 표준 계정 처리량이 모든 컨텍스트 길이에 동일하게 적용됩니다. (출처: Anthropic 공식 블로그 “1M Context Now Generally Available”, claude.com/blog/1m-context-ga, 2026.03.13)
이전 모델(Sonnet 4, Sonnet 4.5)은 3월 13일 이후에도 구 beta 방식이 유지됩니다. “표준 요금으로 1M 가능”은 오직 Opus 4.6과 Sonnet 4.6에만 해당합니다. 기존 모델에서 1M 구간을 쓰면 여전히 프리미엄 요금이 청구됩니다.
Max $200 플랜인데도 막히는 이유가 있습니다
“추가 요금 없이 1M 컨텍스트”라는 공식 발표만 보면, Max 플랜이라면 아무 걱정 없이 쓸 수 있을 것 같습니다. 실제로 2026년 2월 21일, GitHub 공식 이슈 트래커에 이런 보고가 올라왔습니다. Max $200 플랜을 쓰면서 세션 사용량 54%, 주간 사용량 38%만 쓴 상황인데 Opus 4.6[1m] 모델을 선택하자마자 “API Error: Rate limit reached”가 뜬다는 내용이었습니다. (출처: GitHub anthropics/claude-code issue #27535, 2026.02.21)
이슈 보고자가 직접 확인한 것은 이렇습니다. 표준 Opus 4.6(200K 모델)은 같은 조건에서 정상 동작합니다. 플랜 업그레이드 여부를 확인해도 이미 최상위 플랜입니다. 차이는 1M 컨텍스트 전용 분당 처리량 제한이 별도로 존재한다는 것입니다. 공식 발표의 “전용 rate limit 제거”는 3월 13일 GA 이전 베타 기간의 이슈였고, GA 이후에도 1M 요청의 물리적 부하로 인해 분당 처리량이 실질적으로 더 빨리 소진됩니다. 900K짜리 요청 한 방은 9K짜리 요청 100방과 같은 분량의 토큰 처리량을 태웁니다.
- 세션/주간 사용량이 남아 있어도 분당 토큰 처리량(TPM)이 1M 요청으로 순식간에 소진될 수 있음
- rate limit 에러 메시지가 구독 한도와 관계없는 API 레벨 쓰로틀임을 인지할 것
- 1~5인 팀 기준 Anthropic 공식 권장 TPM은 사용자당 200K~300K — 1M 요청 한 번이 이 범위의 30~50%를 소진 (출처: code.claude.com/docs/en/costs)
공식 문서에서 별도 이유를 밝히지 않았습니다만, 에러가 날 경우 잠시 기다렸다가 재시도하거나, 실제로 1M이 필요한 작업인지 먼저 점검하는 것이 현실적인 대응입니다.
1M을 꽉 채우면 오히려 손해인 이유
GeekNews 커뮤니티에 올라온 실제 보고가 흥미롭습니다. 한 사용자가 “gpt5.4도, opus 4.6도 1M 끝까지 쓰는 건 별로다. 700~800K로 끊어 쓰는 게 좋다”는 경험을 공유했습니다. 이것이 근거 없는 느낌이 아닙니다. Anthropic이 공식 블로그에서 언급한 78.3% MRCR v2 벤치마크는 단일 API 호출로 전체 1M을 한 번에 주입하는 방식의 테스트입니다. (출처: Anthropic 공식 블로그, claude.com/blog/1m-context-ga, 2026.03.13)
Claude Code는 실제로 이렇게 동작하지 않습니다. 파일을 도구(Tool)로 순차적으로 읽어들이는 방식이라, 컨텍스트 후반부에 로드된 파일 내용은 초반 내용보다 참조 품질이 낮아질 수 있습니다. 커뮤니티에서 700K~800K를 권장하는 이유가 여기 있습니다. 850K를 넘어가면서부터 정확도 저하를 체감했다는 보고가 반복됩니다. 맥락을 꽉 채우는 것보다, 세션 초반에 핵심 파일을 먼저 로드하는 순서 관리가 더 실질적인 품질 변수가 됩니다.
Anthropic이 제시한 78.3%는 “한 번에 넣기” 기준입니다. Claude Code의 “순차적 도구 읽기” 방식에서는 같은 토큰 수라도 초반 로드된 정보의 참조 품질이 훨씬 높습니다. 이 말은 1M 전체를 쓸 수 있다는 것과, 1M을 채웠을 때 정확도가 균일하다는 것은 다른 이야기라는 뜻입니다.
Pro vs Max, 1M 기준 실제 비용 구조
공식 문서에 따르면 평균 Claude Code 개발자의 API 환산 토큰 비용은 하루 약 $6, 90%의 사용자가 하루 $12 미만입니다. (출처: code.claude.com/docs/en/costs, Anthropic 공식) 이를 월 단위로 환산하면 평균 약 $180, 상위 10%는 $360 이상입니다. Pro 플랜 $20으로 이 API 환산 가치를 커버할 수 있다는 뜻이고, 이건 상당한 차이입니다.
| 플랜 | 월 구독료 | 1M 컨텍스트 (Opus) | API 환산 월 가치 |
|---|---|---|---|
| Pro | $20 | 추가 사용량 필요 | 약 $180 상당 |
| Max 5× | $100 | 기본 포함 (Opus) | 약 $900 상당 |
| Max 20× | $200 | 기본 포함 (Opus) | 약 $3,600 상당 |
| API 직접 | 종량 | 표준 요금 ($5/$25 MTok) | 사용량 × 단가 |
핵심 포인트가 있습니다. Pro 플랜에서 1M 컨텍스트를 쓰려면 “추가 사용량(Extra Usage)”을 활성화해야 합니다. 이 경우 API 요금이 별도 청구됩니다. 실제로 Pro 플랜 사용자가 1M 세션을 자주 돌리면 구독료 $20 외에 API 요금이 합산돼 Max 플랜보다 비싸지는 구간이 생깁니다. 하루 1~2회 1M 세션을 여는 수준이라면 Pro + 추가 사용량이 유리하지만, 하루 4~5회 이상이라면 Max 5×($100)가 현실적입니다. (출처: Anthropic 지원 문서, support.claude.com)
Claude Code에서 바로 써먹는 설정 3가지
공식 문서에서 제공하는 환경변수 세 가지를 알아두면 실제 사용 흐름이 달라집니다. 이 내용은 code.claude.com/docs/en/env-vars에 그대로 나와 있습니다.
CLAUDE_CODE_DISABLE_1M_CONTEXT=1
컴플라이언스 요구나 비용 예측이 중요한 환경에서 1M 옵션 자체를 끌 수 있습니다. settings.json에 env 키로 넣으면 모든 세션에 적용됩니다.
CLAUDE_AUTOCOMPACT_PCT_OVERRIDE=70
기본값은 95%(950K에서 압축). 70%로 설정하면 700K에서 자동 Compaction이 트리거됩니다. 커뮤니티 권장 700~800K 구간에서 끊는 효과를 자동화합니다.
MAX_THINKING_TOKENS=8000
Extended thinking은 기본 31,999 토큰 예산이 설정돼 있고, 이 토큰은 출력 토큰으로 청구됩니다. Opus 4.6 기준 요청당 최대 $0.80가 사고 토큰만으로 나갈 수 있습니다. 단순한 코딩 작업에서는 8,000으로 낮추는 것이 현실적입니다. (출처: code.claude.com/docs/en/costs)
Sonnet 4.6과 어떻게 나눠 쓸지 기준이 생겼습니다
Opus 4.6과 Sonnet 4.6 모두 1M 컨텍스트를 지원합니다. 그런데 Anthropic 공식 권장 전략이 명확합니다. Sonnet 4.6($3/$15 MTok)을 기본으로 쓰고, 다음 상황에서만 Opus 4.6($5/$25 MTok)으로 전환하는 방식입니다. (출처: Anthropic 공식 모델 선택 가이드, platform.claude.com)
Opus 4.6이 명확하게 유리한 케이스는 세 가지입니다. 다중 에이전트 팀을 코디네이션하는 복잡한 워크플로우, 수학적·과학적 추론이 필요한 아키텍처 결정, 그리고 출력을 128K까지 뽑아야 하는 경우입니다. Sonnet 4.6의 최대 출력은 64K인 반면 Opus 4.6은 128K까지 지원합니다. 이 수치 하나만으로도 대규모 리팩터링 결과물을 한 번에 뽑을 수 있느냐 없느냐가 갈립니다.
128K 출력(Opus 4.6) vs 64K 출력(Sonnet 4.6) — 이 차이는 컨텍스트 입력 크기보다 실전에서 더 자주 결정 변수가 됩니다. 대용량 코드 생성, 전체 파일 재작성, 장문 분석 보고서에서 Sonnet이 중간에 잘리는 경험을 했다면, 그 이유가 여기 있습니다.
반대로 Sonnet 4.6이 나은 상황도 있습니다. 인터랙티브하게 빠른 응답이 필요하거나, 반복적인 코딩 태스크를 다수 처리할 때는 Sonnet의 속도가 실제 체감 차이를 만듭니다. Opus의 훈련 데이터 기준은 2025년 8월, Sonnet 4.6은 2026년 1월로 Anthropic 공식 Transparency Hub에 나와 있습니다. 최신 라이브러리나 프레임워크 관련 코드를 다룰 때는 Sonnet 4.6이 더 최신 지식을 갖고 있습니다.
자주 묻는 것들
마치며
Claude Opus 4.6 1M 컨텍스트 GA 발표는 분명히 의미 있는 변화입니다. 추가 요금 없이 전 구간 표준 단가가 적용되고, beta header 없이 자동으로 동작하는 것은 실제 개발 흐름을 바꿉니다. Compaction 이벤트 15% 감소라는 수치도 실제 사용자 보고에서 나온 것입니다. (출처: claude.com/blog/1m-context-ga)
다만 “Max 플랜이면 다 된다”는 식으로 받아들이면 예상치 못한 상황이 생깁니다. 분당 처리량 제한은 구독 한도와 별개로 존재하고, 1M 전체를 꽉 채우는 것이 최선도 아닙니다. 700~800K 구간에서 Compaction 임계값을 잡아두는 것이 실질적으로 더 안정적인 품질을 만들어줍니다. 공식 발표와 실제 사용 사이의 간격을 미리 알고 쓰는 것과 모르고 쓰는 것은 차이가 납니다.
- Anthropic 공식 블로그 “1M Context Now Generally Available” — claude.com/blog/1m-context-ga (2026.03.13)
- Claude Code 공식 비용 문서 — code.claude.com/docs/en/costs
- Claude Code 공식 환경변수 문서 — code.claude.com/docs/en/env-vars
- Anthropic 공식 가격 문서 — platform.claude.com/docs/en/about-claude/pricing
- GitHub 이슈 #27535 “Opus 4.6 1M context unusable on Max plan” — github.com/anthropics/claude-code/issues/27535
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문에 기재된 요금, 플랜 조건, 기술 사양은 Claude Code v2.1.75 / 2026년 3월 13일 기준이며, Anthropic의 공식 업데이트에 따라 달라질 수 있습니다. 최신 정보는 공식 문서에서 직접 확인하시기 바랍니다.











댓글 남기기