Claude Code 1M 컨텍스트, 끝까지 쓰면 안 됩니다

Published on

in

Claude Code 1M 컨텍스트, 끝까지 쓰면 안 됩니다

2026.03.13 기준 / Claude Code v2.1.76 / Opus 4.6

Claude Code 1M 컨텍스트,
끝까지 쓰면 안 됩니다

2026년 3월 13일, Anthropic이 Claude Code의 1M 토큰 컨텍스트를 정식 지원(GA)으로 전환했습니다. 추가 요금 없이, beta 헤더도 없이 바로 쓸 수 있다는 말에 곧바로 실전에 투입한 사람이 많습니다. 그런데 막상 쓰다 보면 이 기능을 그냥 켜두는 게 오히려 독이 될 수 있다는 걸 알게 됩니다. Pro 플랜이면 추가 사용량이 소진되고, 300K 구간을 넘으면 품질이 눈에 띄게 떨어지기 시작합니다. 공식 수치와 커뮤니티 실측 데이터를 같이 놓고 보니 이런 차이가 보였습니다.

78.3%
MRCR v2 정확도 (Opus 4.6)
15%↓
압축(Compaction) 발생 감소
~300K
커뮤니티 실측 품질 저하 시작점

1M 컨텍스트 GA — 실제로 뭐가 달라졌나요

2026년 3월 13일 이전에도 1M 컨텍스트는 존재했습니다. 다만 쓰려면 anthropic-beta: context-1m-2025-08-07 헤더를 붙여야 했고, 200K 토큰을 초과하면 입력 기준 약 2배의 프리미엄 요금이 붙었습니다. GA 전환 이후 이 두 조건이 모두 사라졌습니다.

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다

Anthropic은 “900K 토큰 요청과 9K 요청이 동일 단가”라고 발표했습니다. (출처: Anthropic 공식 블로그 1M Context GA, 2026.03.13) 하지만 이게 모든 플랜에서 동일하게 적용되는 건 아닙니다. API 직접 사용자에게는 해당하는 말이고, 구독제 사용자는 별도 조건이 있습니다. 이 차이를 모르면 생각보다 빨리 한도에 걸립니다.

가장 중요한 변화를 정리하면 세 가지입니다. 첫째, beta 헤더 없이 200K 초과 요청이 자동으로 처리됩니다. 둘째, 기존에 별도로 존재하던 1M 전용 Rate Limit이 사라지고 표준 계정 처리량이 적용됩니다. 셋째, Max, Team, Enterprise 플랜에서 Claude Code를 쓰면 Opus 4.6의 1M 컨텍스트가 기본값으로 켜집니다.

구분 GA 이전 (2026.03.12 이전) GA 이후 (2026.03.13 ~)
활성화 방법 beta 헤더 필수 자동 (코드 변경 불필요)
200K 초과 요금 프리미엄 배율 (~2배) 표준 단가 동일 적용 (API)
Rate Limit 1M 전용 별도 한도 표준 계정 처리량 통합
미디어 한도 이미지/PDF 약 100개 최대 600개 (6배)
대상 모델 일부 베타 참여 계정 Opus 4.6, Sonnet 4.6 전체

출처: Anthropic 1M Context GA 블로그 (2026.03.13)

참고로 Sonnet 4, Sonnet 4.5는 이번 GA와 무관합니다. 구 beta 방식(context-1m-2025-08-07 헤더 + 프리미엄 요금)이 여전히 적용됩니다. 요금 무배율 혜택은 Opus 4.6과 Sonnet 4.6에만 해당합니다.

Pro 플랜이면 무료가 아닙니다

솔직히 말하면, 이 부분이 가장 많이 오해받고 있는 지점입니다. “API 표준 요금 동일 적용”이라는 발표를 구독제 사용자에게도 해당하는 말로 읽으면 실수가 생깁니다. 공식 요금 페이지(anthropic.com/pricing)를 직접 확인하면 플랜별로 조건이 다릅니다.

⚠️
Pro 플랜 사용자가 꼭 알아야 하는 사항

Pro 플랜에서 Claude Code로 Opus 4.6 1M 컨텍스트를 사용하면 추가 사용량(Extra Usage)이 소진됩니다. Anthropic 공식 지원 문서에서 확인할 수 있습니다. Max, Team, Enterprise 사용자는 구독 한도 내에서 추가 비용 없이 쓸 수 있지만, Pro는 다릅니다. 1M 컨텍스트를 길게 쓸 계획이 있다면 Max 플랜($100/월~)을 먼저 계산해보는 게 현실적입니다.

플랜별 1M 포함 여부 비교

플랜 Opus 4.6 1M 기본 포함 비고
Free Opus 4.6 자체 미포함
Pro ($20/월) 추가 사용량 소진 방식
Max ($100~/월) 구독 사용량 내 포함, 기본 활성화
Team / Enterprise 시트 요금 내 포함
API (직접) 입력 $5/MTok, 출력 $25/MTok 단일 단가

출처: Anthropic 공식 요금 페이지 (2026.03 기준)

결론부터 말씀드리면, Claude Code를 하루에도 여러 세션 돌리는 개발자라면 Pro 플랜으로는 1M 컨텍스트를 제대로 쓰기 어렵습니다. 추가 사용량이 빠르게 소진되고, 한도 초과 후에는 200K 기본 모드로 돌아가거나 별도 충전이 필요합니다.

300K를 넘으면 생기는 일

1M 컨텍스트 GA 발표 이후 Claude Code 커뮤니티(r/ClaudeCode, 168K+ 구독자)에서 가장 많이 올라온 글의 공통점이 있습니다. “300K 구간 이후로 품질이 뚝 떨어진다”는 보고입니다. 같은 날 독립적으로 같은 현상을 목격한 사용자들이 여럿이고, 하루 20개 이상 세션을 돌리는 개발자도 동일하게 경험했습니다.

💡 숫자를 직접 따라가 보면 이런 패턴이 나옵니다
  • ~200K 구간: 자동 Compaction 발생 (기존 모델 기준 95% 임계값)
  • ~300K 구간: 커뮤니티에서 보고되는 품질 저하 시작점 — 이전에 해결한 것을 다시 시도하거나, 앞서 논의한 설계 결정을 잊음
  • 700~800K 구간: 경험 많은 사용자의 실질적 한계선 — 이 구간부터 새 세션으로 교체 권장
  • 1M: 공식 지원 한도 (벤치마크 기준 78.3% 정확도)

이 현상을 “Context Rot”이라고 부릅니다. 컨텍스트 창이 아무리 커져도, 거리가 멀어진 앞쪽 정보에 대한 어텐션 가중치가 낮아지는 건 트랜스포머 구조의 특성입니다. 1M이 생겼다고 이 물리적 특성이 사라지는 건 아닙니다.

💡 Claude Code의 1M은 단일 창이 아닙니다

벤치마크에서 측정하는 1M은 API 직접 호출로 전체 100만 토큰을 한 번에 주입하는 방식입니다. 반면 Claude Code는 파일을 읽을 때 도구(Tool call)를 순차적으로 호출해 컨텍스트를 쌓아갑니다. 이 구조 차이 때문에 실전에서는 벤치마크 수치만큼 나오지 않을 수 있습니다. 중요한 정보일수록 세션 초반에 로드해두는 게 유리합니다.

한 가지 더 확인된 사항입니다. 1M GA 배포 시점에 Claude Code의 기본 effort 레벨이 high에서 medium으로 바뀐 것을 여러 사용자가 독립적으로 확인했습니다. (출처: r/ClaudeCode, 2026.03.17) Anthropic이 공식 이유를 밝히지 않은 부분입니다. 세션 시작 전 /settings에서 effort 레벨을 직접 확인하는 게 좋습니다.

벤치마크 수치, 실전과 다른 이유

Anthropic은 Opus 4.6이 1M 컨텍스트 환경에서 MRCR v2 기준 78.3%를 기록했다고 발표했습니다. (출처: Anthropic 1M Context GA 블로그, 2026.03.13) 경쟁 모델과 비교하면 격차가 큽니다. Claude Sonnet 4.5는 같은 기준에서 18.5%, Gemini 3 Pro는 26.3%입니다. 숫자만 보면 압도적입니다.

모델 MRCR v2 (1M, 8-needle) 특이사항
Claude Opus 4.6 78.3% 프론티어 모델 중 최고
Gemini 3 Pro 26.3% 2M 컨텍스트 지원 모델
Claude Sonnet 4.5 18.5% Sonnet 계열 구버전

출처: Anthropic 공식 발표 및 Opus 4.6 릴리스 노트

여기에서 짚고 넘어갈 점이 있습니다. MRCR v2의 “8-needle” 테스트는 100만 토큰 텍스트 안에 숨겨진 8개 항목을 단 한 번의 API 호출로 찾아내는 구조입니다. 전체 컨텍스트가 한꺼번에 주입됩니다. 반면 Claude Code의 실제 작업 흐름은 파일을 하나씩 Tool call로 읽어들이며 컨텍스트를 점진적으로 채워가는 방식입니다. 동일한 “1M”이지만 내부 구조가 다릅니다.

💡 같은 조건으로 직접 따라해볼 수 있는 수치

검증 공식: 실제 코드베이스 500개 파일(약 30만 토큰) 세션에서 초반 100개 파일(~6만 토큰)에 담긴 설계 결정을 세션 후반에 재질문하면 응답 일관성을 직접 확인할 수 있습니다. 커뮤니티 보고 기준 200K+ 구간부터 오차율이 올라갑니다. Compaction이 발생한 후 앞쪽 내용을 물어보면 “이 대화에서 여러 번 압축이 일어나 초반 내용을 찾을 수 없다”는 응답이 나오기도 했습니다. (출처: r/ClaudeCode 실사용 보고, 2026.03.17)

그럼에도 78.3%라는 수치는 의미 있습니다. 동일 조건에서 경쟁 모델 대비 3배 이상 높습니다. 다만 이 수치를 “1M 전 구간에서 안정적”으로 해석하면 실망할 수 있습니다. 공식 문서에 따르면 Prompt Caching을 활용하면 캐시 읽기 비용이 기본의 10% 수준($0.50/MTok)으로 떨어지고 Rate Limit 카운트에서도 제외되어, 대용량 컨텍스트의 실질 처리량을 최대 5배까지 늘릴 수 있습니다. (출처: Anthropic Opus 4.6 Prompt Caching 공식 문서)

플랜별 1M 컨텍스트 활용 전략

기대했던 것과 달랐습니다. 1M이 생겼다고 해서 무조건 세션을 길게 끌어가는 게 최선은 아닙니다. 플랜과 작업 유형에 따라 전략이 달라집니다. 커뮤니티 베테랑들의 실측 경험과 공식 문서를 교차해서 정리했습니다.

Pro 플랜 사용자에게 현실적인 방법

Pro 플랜에서 1M 컨텍스트는 추가 사용량을 소진하는 방식입니다. 일상적인 코딩 세션이라면 Sonnet 4.6(기본값)으로 운용하고, 복잡한 아키텍처 분석이나 대규모 리팩터링이 필요할 때만 Opus 4.6 1M으로 전환하는 게 효율적입니다. /model sonnet을 기본으로, /model opus[1m]은 꼭 필요한 때만 씁니다.

Max / Team 플랜에서 효과가 큰 작업

Max, Team 플랜이라면 실제로 효과가 큰 영역이 있습니다. 수백 개 파일에 걸친 레거시 코드베이스 분석, 수만 줄 에러 로그 전체를 컨텍스트에 올려두는 장기 디버깅, 여러 서비스의 의존 관계를 한눈에 보는 아키텍처 검토입니다. 한 CPO의 실사례에서는 대용량 PDF와 데이터셋 로드 이후 Compaction 발생이 15% 감소했습니다. (출처: Anthropic 1M Context GA 블로그, Jon Bell 인용, 2026.03.13) Compaction이 줄어들수록 세션 연속성이 살아납니다.

✅ 1M이 진짜 도움이 되는 경우
  • 전체 모노레포 구조 파악 (200K+ 규모)
  • 레거시 마이그레이션 계획 수립
  • 전체 에러 로그 분석 (잘라내지 않고)
  • Agent Teams와 병렬 작업 통합
⚠️ 오히려 비효율인 경우
  • 단순 버그 수정, 소규모 기능 구현
  • 300K 넘어서도 세션 강제 유지
  • Pro 플랜에서 매일 1M 풀 사용
  • Compaction 후 복구 기대

Anthropic 공식 권장 전략도 같은 방향입니다. Sonnet 4.6으로 시작해서 복잡한 판단이 필요한 순간에만 Opus 4.6으로 에스컬레이션하는 방식입니다. Sonnet 4.6은 입력 $3/MTok으로 Opus 4.6($5/MTok) 대비 40% 저렴하고, 일반 코딩 작업에서 속도도 빠릅니다. (출처: Anthropic 공식 모델 선택 가이드)

컨텍스트를 아끼는 3가지 설정

생각보다 간단합니다. Claude Code의 환경변수와 설정 파일 몇 가지만 조정하면 컨텍스트 소모를 줄이고 세션 품질을 오래 유지할 수 있습니다. 아래 세 가지가 가장 실용적입니다.

01
Compaction 임계값 낮추기

기본값은 1M의 95%(약 950K)에서 Compaction이 발생합니다. 700K 정도로 낮춰두면 세션 후반 품질 저하를 예방할 수 있습니다. ~/.claude/settings.json에 아래 설정을 추가합니다.

{
"env": {
"CLAUDE_CODE_AUTO_COMPACT_WINDOW": "700000",
"CLAUDE_AUTOCOMPACT_PCT_OVERRIDE": "90"
}
}

이 설정의 실제 Compaction 트리거: 700,000 × 0.90 = 630,000 토큰에서 발생

02
1M 컨텍스트 opt-out (필요 시)

Pro 플랜이거나 비용 예측이 중요한 환경이라면 아예 1M을 비활성화하는 게 명확합니다. 환경변수 하나로 됩니다.

export CLAUDE_CODE_DISABLE_1M_CONTEXT=1

이 변수를 설정하면 모델 선택기에서 [1m] 옵션이 사라집니다. settings.json에 영구 적용 가능.

03
effort 레벨 명시적으로 high로 설정

1M GA 배포 이후 기본 effort가 medium으로 바뀐 것을 여러 사용자가 확인했습니다. 세션 시작 전 /settings에서 effort를 직접 확인하고 high로 설정하세요. 같은 세션에서 이걸 high로 되돌린 뒤 품질이 개선됐다는 보고가 있습니다.

# Claude Code 세션 내에서
/settings
# effort: high 로 설정 확인 및 변경

자주 묻는 질문

Q1. Pro 플랜($20/월)에서 1M 컨텍스트를 매일 써도 되나요?
Pro 플랜에서 Opus 4.6 1M 컨텍스트를 사용하면 추가 사용량(Extra Usage)이 소진됩니다. 하루에 여러 번 긴 세션을 돌린다면 생각보다 빠르게 한도에 도달합니다. 일상적인 코딩 작업은 Sonnet 4.6으로 운용하고, 반드시 필요할 때만 Opus 4.6 1M으로 전환하는 게 현실적입니다. 매일 풀로 쓰려면 Max 플랜($100/월~)을 검토하는 게 맞습니다.
Q2. beta 헤더를 이미 쓰고 있는데 코드를 바꿔야 하나요?
아닙니다. GA 전환 이후 anthropic-beta: context-1m-2025-08-07 헤더가 있으면 그냥 무시됩니다. 코드 변경 없이 기존 요청이 그대로 동작합니다. 단, 이 혜택은 Opus 4.6과 Sonnet 4.6에만 적용됩니다. Sonnet 4, Sonnet 4.5는 여전히 구 beta 방식(헤더 + 프리미엄 요금)입니다.
Q3. 1M까지 다 쓰면 품질이 어떻게 되나요?
커뮤니티 실측에 따르면 300K 구간부터 품질 저하가 나타나기 시작하고, 700~800K 이후는 대부분 새 세션 교체를 권장합니다. 1M 전 구간에서 벤치마크(78.3%) 수준을 기대하면 실망스러울 수 있습니다. 실전에서는 중요한 설계 결정이나 핵심 파일을 세션 초반에 로드하고, 700K 언저리에서 새 세션으로 넘어가는 게 안전합니다.
Q4. AWS Bedrock에서도 1M이 무료 배율로 되나요?
Anthropic 직접 API와 달리 AWS Bedrock에서 Opus 4.6의 1M 컨텍스트는 현재 “Preview” 티어로 제공되며, 처리량(약 5 req/min 수준으로 추정)이 표준 클래스 대비 크게 낮습니다. 계정과 리전에 따라 다르므로 AWS Bedrock Quotas 페이지에서 직접 확인이 필요합니다. 대규모 1M 처리가 필요하다면 Google Vertex AI(200 QPM, us-east5 등 지원)나 Anthropic 직접 API가 현실적입니다.
Q5. Sonnet 4.6과 Opus 4.6, 어떤 걸 써야 하나요?
Anthropic 공식 권장은 Sonnet 4.6으로 기본 운용, 복잡한 아키텍처 판단이나 다중 에이전트 코디네이션이 필요한 순간에만 Opus 4.6으로 전환하는 방식입니다. Sonnet 4.6은 입력 $3/MTok으로 Opus($5/MTok)보다 40% 저렴하고 응답 속도도 빠릅니다. 한 번에 128K 토큰까지 출력해야 하는 작업이라면 Opus 4.6만 지원하므로 이때는 선택이 명확합니다. Claude Code에서 /model sonnet/model opus[1m]으로 손쉽게 전환됩니다.

마치며

1M 컨텍스트 GA는 분명히 좋은 소식입니다. beta 헤더도 없어지고, 프리미엄 요금 배율도 사라졌습니다. 미디어 한도가 6배 늘어난 것도 실용적입니다. 그런데 “이제 1M까지 다 써도 된다”고 받아들이면 금방 막히는 지점이 나옵니다.

Pro 플랜이면 추가 사용량이 소진되는 구조고, 300K 이후 품질 저하는 플랜과 무관하게 트랜스포머 구조의 특성에서 오는 것입니다. 벤치마크 78.3%는 실전과 측정 방식이 다르고, GA 직후 effort 레벨이 medium으로 바뀐 것도 확인이 필요합니다.

결론적으로 1M은 쓰는 방법을 알면 강력한 도구입니다. 대규모 코드베이스 분석, 장기 디버깅 세션, Agent Teams 통합 같은 작업에서 진짜 값어치를 합니다. 막상 해보면 다릅니다. 1M이 생겼다고 무작정 끝까지 쓰는 게 아니라, 어디서 새로 끊을지를 아는 게 이 기능의 핵심입니다.

본 포스팅 참고 자료

  1. 1M context is now generally available for Opus 4.6 and Sonnet 4.6 — Anthropic 공식 블로그 (2026.03.13)
  2. Anthropic 공식 요금 페이지 (2026.03 기준)
  3. Claude Code 공식 문서 — Anthropic
  4. r/ClaudeCode: 1M context in Claude Code — is it actually 1M? (2026.03.17)
  5. Claude Code 1M Context 완전 가이드 — 갓대희 블로그 (2026.03.16)

본 포스팅은 2026년 3월 21일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 요금, 플랜 구성, 기능 지원 여부는 반드시 Anthropic 공식 페이지에서 최신 내용을 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기