Claude Code 1M 컨텍스트,
끝까지 쓰면 안 됩니다
2026년 3월 13일, Anthropic이 Claude Code의 1M 토큰 컨텍스트를 정식 지원(GA)으로 전환했습니다. 추가 요금 없이, beta 헤더도 없이 바로 쓸 수 있다는 말에 곧바로 실전에 투입한 사람이 많습니다. 그런데 막상 쓰다 보면 이 기능을 그냥 켜두는 게 오히려 독이 될 수 있다는 걸 알게 됩니다. Pro 플랜이면 추가 사용량이 소진되고, 300K 구간을 넘으면 품질이 눈에 띄게 떨어지기 시작합니다. 공식 수치와 커뮤니티 실측 데이터를 같이 놓고 보니 이런 차이가 보였습니다.
1M 컨텍스트 GA — 실제로 뭐가 달라졌나요
2026년 3월 13일 이전에도 1M 컨텍스트는 존재했습니다. 다만 쓰려면 anthropic-beta: context-1m-2025-08-07 헤더를 붙여야 했고, 200K 토큰을 초과하면 입력 기준 약 2배의 프리미엄 요금이 붙었습니다. GA 전환 이후 이 두 조건이 모두 사라졌습니다.
Anthropic은 “900K 토큰 요청과 9K 요청이 동일 단가”라고 발표했습니다. (출처: Anthropic 공식 블로그 1M Context GA, 2026.03.13) 하지만 이게 모든 플랜에서 동일하게 적용되는 건 아닙니다. API 직접 사용자에게는 해당하는 말이고, 구독제 사용자는 별도 조건이 있습니다. 이 차이를 모르면 생각보다 빨리 한도에 걸립니다.
가장 중요한 변화를 정리하면 세 가지입니다. 첫째, beta 헤더 없이 200K 초과 요청이 자동으로 처리됩니다. 둘째, 기존에 별도로 존재하던 1M 전용 Rate Limit이 사라지고 표준 계정 처리량이 적용됩니다. 셋째, Max, Team, Enterprise 플랜에서 Claude Code를 쓰면 Opus 4.6의 1M 컨텍스트가 기본값으로 켜집니다.
| 구분 | GA 이전 (2026.03.12 이전) | GA 이후 (2026.03.13 ~) |
|---|---|---|
| 활성화 방법 | beta 헤더 필수 | 자동 (코드 변경 불필요) |
| 200K 초과 요금 | 프리미엄 배율 (~2배) | 표준 단가 동일 적용 (API) |
| Rate Limit | 1M 전용 별도 한도 | 표준 계정 처리량 통합 |
| 미디어 한도 | 이미지/PDF 약 100개 | 최대 600개 (6배) |
| 대상 모델 | 일부 베타 참여 계정 | Opus 4.6, Sonnet 4.6 전체 |
출처: Anthropic 1M Context GA 블로그 (2026.03.13)
참고로 Sonnet 4, Sonnet 4.5는 이번 GA와 무관합니다. 구 beta 방식(context-1m-2025-08-07 헤더 + 프리미엄 요금)이 여전히 적용됩니다. 요금 무배율 혜택은 Opus 4.6과 Sonnet 4.6에만 해당합니다.
Pro 플랜이면 무료가 아닙니다
솔직히 말하면, 이 부분이 가장 많이 오해받고 있는 지점입니다. “API 표준 요금 동일 적용”이라는 발표를 구독제 사용자에게도 해당하는 말로 읽으면 실수가 생깁니다. 공식 요금 페이지(anthropic.com/pricing)를 직접 확인하면 플랜별로 조건이 다릅니다.
Pro 플랜에서 Claude Code로 Opus 4.6 1M 컨텍스트를 사용하면 추가 사용량(Extra Usage)이 소진됩니다. Anthropic 공식 지원 문서에서 확인할 수 있습니다. Max, Team, Enterprise 사용자는 구독 한도 내에서 추가 비용 없이 쓸 수 있지만, Pro는 다릅니다. 1M 컨텍스트를 길게 쓸 계획이 있다면 Max 플랜($100/월~)을 먼저 계산해보는 게 현실적입니다.
플랜별 1M 포함 여부 비교
| 플랜 | Opus 4.6 1M 기본 포함 | 비고 |
|---|---|---|
| Free | ✗ | Opus 4.6 자체 미포함 |
| Pro ($20/월) | △ | 추가 사용량 소진 방식 |
| Max ($100~/월) | ✓ | 구독 사용량 내 포함, 기본 활성화 |
| Team / Enterprise | ✓ | 시트 요금 내 포함 |
| API (직접) | ✓ | 입력 $5/MTok, 출력 $25/MTok 단일 단가 |
출처: Anthropic 공식 요금 페이지 (2026.03 기준)
결론부터 말씀드리면, Claude Code를 하루에도 여러 세션 돌리는 개발자라면 Pro 플랜으로는 1M 컨텍스트를 제대로 쓰기 어렵습니다. 추가 사용량이 빠르게 소진되고, 한도 초과 후에는 200K 기본 모드로 돌아가거나 별도 충전이 필요합니다.
300K를 넘으면 생기는 일
1M 컨텍스트 GA 발표 이후 Claude Code 커뮤니티(r/ClaudeCode, 168K+ 구독자)에서 가장 많이 올라온 글의 공통점이 있습니다. “300K 구간 이후로 품질이 뚝 떨어진다”는 보고입니다. 같은 날 독립적으로 같은 현상을 목격한 사용자들이 여럿이고, 하루 20개 이상 세션을 돌리는 개발자도 동일하게 경험했습니다.
- 약 ~200K 구간: 자동 Compaction 발생 (기존 모델 기준 95% 임계값)
- 약 ~300K 구간: 커뮤니티에서 보고되는 품질 저하 시작점 — 이전에 해결한 것을 다시 시도하거나, 앞서 논의한 설계 결정을 잊음
- 약 700~800K 구간: 경험 많은 사용자의 실질적 한계선 — 이 구간부터 새 세션으로 교체 권장
- 1M: 공식 지원 한도 (벤치마크 기준 78.3% 정확도)
이 현상을 “Context Rot”이라고 부릅니다. 컨텍스트 창이 아무리 커져도, 거리가 멀어진 앞쪽 정보에 대한 어텐션 가중치가 낮아지는 건 트랜스포머 구조의 특성입니다. 1M이 생겼다고 이 물리적 특성이 사라지는 건 아닙니다.
벤치마크에서 측정하는 1M은 API 직접 호출로 전체 100만 토큰을 한 번에 주입하는 방식입니다. 반면 Claude Code는 파일을 읽을 때 도구(Tool call)를 순차적으로 호출해 컨텍스트를 쌓아갑니다. 이 구조 차이 때문에 실전에서는 벤치마크 수치만큼 나오지 않을 수 있습니다. 중요한 정보일수록 세션 초반에 로드해두는 게 유리합니다.
한 가지 더 확인된 사항입니다. 1M GA 배포 시점에 Claude Code의 기본 effort 레벨이 high에서 medium으로 바뀐 것을 여러 사용자가 독립적으로 확인했습니다. (출처: r/ClaudeCode, 2026.03.17) Anthropic이 공식 이유를 밝히지 않은 부분입니다. 세션 시작 전 /settings에서 effort 레벨을 직접 확인하는 게 좋습니다.
벤치마크 수치, 실전과 다른 이유
Anthropic은 Opus 4.6이 1M 컨텍스트 환경에서 MRCR v2 기준 78.3%를 기록했다고 발표했습니다. (출처: Anthropic 1M Context GA 블로그, 2026.03.13) 경쟁 모델과 비교하면 격차가 큽니다. Claude Sonnet 4.5는 같은 기준에서 18.5%, Gemini 3 Pro는 26.3%입니다. 숫자만 보면 압도적입니다.
| 모델 | MRCR v2 (1M, 8-needle) | 특이사항 |
|---|---|---|
| Claude Opus 4.6 | 78.3% | 프론티어 모델 중 최고 |
| Gemini 3 Pro | 26.3% | 2M 컨텍스트 지원 모델 |
| Claude Sonnet 4.5 | 18.5% | Sonnet 계열 구버전 |
출처: Anthropic 공식 발표 및 Opus 4.6 릴리스 노트
여기에서 짚고 넘어갈 점이 있습니다. MRCR v2의 “8-needle” 테스트는 100만 토큰 텍스트 안에 숨겨진 8개 항목을 단 한 번의 API 호출로 찾아내는 구조입니다. 전체 컨텍스트가 한꺼번에 주입됩니다. 반면 Claude Code의 실제 작업 흐름은 파일을 하나씩 Tool call로 읽어들이며 컨텍스트를 점진적으로 채워가는 방식입니다. 동일한 “1M”이지만 내부 구조가 다릅니다.
검증 공식: 실제 코드베이스 500개 파일(약 30만 토큰) 세션에서 초반 100개 파일(~6만 토큰)에 담긴 설계 결정을 세션 후반에 재질문하면 응답 일관성을 직접 확인할 수 있습니다. 커뮤니티 보고 기준 200K+ 구간부터 오차율이 올라갑니다. Compaction이 발생한 후 앞쪽 내용을 물어보면 “이 대화에서 여러 번 압축이 일어나 초반 내용을 찾을 수 없다”는 응답이 나오기도 했습니다. (출처: r/ClaudeCode 실사용 보고, 2026.03.17)
그럼에도 78.3%라는 수치는 의미 있습니다. 동일 조건에서 경쟁 모델 대비 3배 이상 높습니다. 다만 이 수치를 “1M 전 구간에서 안정적”으로 해석하면 실망할 수 있습니다. 공식 문서에 따르면 Prompt Caching을 활용하면 캐시 읽기 비용이 기본의 10% 수준($0.50/MTok)으로 떨어지고 Rate Limit 카운트에서도 제외되어, 대용량 컨텍스트의 실질 처리량을 최대 5배까지 늘릴 수 있습니다. (출처: Anthropic Opus 4.6 Prompt Caching 공식 문서)
플랜별 1M 컨텍스트 활용 전략
기대했던 것과 달랐습니다. 1M이 생겼다고 해서 무조건 세션을 길게 끌어가는 게 최선은 아닙니다. 플랜과 작업 유형에 따라 전략이 달라집니다. 커뮤니티 베테랑들의 실측 경험과 공식 문서를 교차해서 정리했습니다.
Pro 플랜 사용자에게 현실적인 방법
Pro 플랜에서 1M 컨텍스트는 추가 사용량을 소진하는 방식입니다. 일상적인 코딩 세션이라면 Sonnet 4.6(기본값)으로 운용하고, 복잡한 아키텍처 분석이나 대규모 리팩터링이 필요할 때만 Opus 4.6 1M으로 전환하는 게 효율적입니다. /model sonnet을 기본으로, /model opus[1m]은 꼭 필요한 때만 씁니다.
Max / Team 플랜에서 효과가 큰 작업
Max, Team 플랜이라면 실제로 효과가 큰 영역이 있습니다. 수백 개 파일에 걸친 레거시 코드베이스 분석, 수만 줄 에러 로그 전체를 컨텍스트에 올려두는 장기 디버깅, 여러 서비스의 의존 관계를 한눈에 보는 아키텍처 검토입니다. 한 CPO의 실사례에서는 대용량 PDF와 데이터셋 로드 이후 Compaction 발생이 15% 감소했습니다. (출처: Anthropic 1M Context GA 블로그, Jon Bell 인용, 2026.03.13) Compaction이 줄어들수록 세션 연속성이 살아납니다.
- 전체 모노레포 구조 파악 (200K+ 규모)
- 레거시 마이그레이션 계획 수립
- 전체 에러 로그 분석 (잘라내지 않고)
- Agent Teams와 병렬 작업 통합
- 단순 버그 수정, 소규모 기능 구현
- 300K 넘어서도 세션 강제 유지
- Pro 플랜에서 매일 1M 풀 사용
- Compaction 후 복구 기대
Anthropic 공식 권장 전략도 같은 방향입니다. Sonnet 4.6으로 시작해서 복잡한 판단이 필요한 순간에만 Opus 4.6으로 에스컬레이션하는 방식입니다. Sonnet 4.6은 입력 $3/MTok으로 Opus 4.6($5/MTok) 대비 40% 저렴하고, 일반 코딩 작업에서 속도도 빠릅니다. (출처: Anthropic 공식 모델 선택 가이드)
컨텍스트를 아끼는 3가지 설정
생각보다 간단합니다. Claude Code의 환경변수와 설정 파일 몇 가지만 조정하면 컨텍스트 소모를 줄이고 세션 품질을 오래 유지할 수 있습니다. 아래 세 가지가 가장 실용적입니다.
기본값은 1M의 95%(약 950K)에서 Compaction이 발생합니다. 700K 정도로 낮춰두면 세션 후반 품질 저하를 예방할 수 있습니다. ~/.claude/settings.json에 아래 설정을 추가합니다.
{
"env": {
"CLAUDE_CODE_AUTO_COMPACT_WINDOW": "700000",
"CLAUDE_AUTOCOMPACT_PCT_OVERRIDE": "90"
}
}
이 설정의 실제 Compaction 트리거: 700,000 × 0.90 = 630,000 토큰에서 발생
Pro 플랜이거나 비용 예측이 중요한 환경이라면 아예 1M을 비활성화하는 게 명확합니다. 환경변수 하나로 됩니다.
export CLAUDE_CODE_DISABLE_1M_CONTEXT=1
이 변수를 설정하면 모델 선택기에서 [1m] 옵션이 사라집니다. settings.json에 영구 적용 가능.
1M GA 배포 이후 기본 effort가 medium으로 바뀐 것을 여러 사용자가 확인했습니다. 세션 시작 전 /settings에서 effort를 직접 확인하고 high로 설정하세요. 같은 세션에서 이걸 high로 되돌린 뒤 품질이 개선됐다는 보고가 있습니다.
# Claude Code 세션 내에서
/settings
# effort: high 로 설정 확인 및 변경
자주 묻는 질문
마치며
1M 컨텍스트 GA는 분명히 좋은 소식입니다. beta 헤더도 없어지고, 프리미엄 요금 배율도 사라졌습니다. 미디어 한도가 6배 늘어난 것도 실용적입니다. 그런데 “이제 1M까지 다 써도 된다”고 받아들이면 금방 막히는 지점이 나옵니다.
Pro 플랜이면 추가 사용량이 소진되는 구조고, 300K 이후 품질 저하는 플랜과 무관하게 트랜스포머 구조의 특성에서 오는 것입니다. 벤치마크 78.3%는 실전과 측정 방식이 다르고, GA 직후 effort 레벨이 medium으로 바뀐 것도 확인이 필요합니다.
결론적으로 1M은 쓰는 방법을 알면 강력한 도구입니다. 대규모 코드베이스 분석, 장기 디버깅 세션, Agent Teams 통합 같은 작업에서 진짜 값어치를 합니다. 막상 해보면 다릅니다. 1M이 생겼다고 무작정 끝까지 쓰는 게 아니라, 어디서 새로 끊을지를 아는 게 이 기능의 핵심입니다.
본 포스팅 참고 자료
본 포스팅은 2026년 3월 21일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 요금, 플랜 구성, 기능 지원 여부는 반드시 Anthropic 공식 페이지에서 최신 내용을 확인하세요.


댓글 남기기