Claude Code 1M 컨텍스트, Pro 플랜은 이 조건에서만 됩니다

Published on

in

Claude Code 1M 컨텍스트, Pro 플랜은 이 조건에서만 됩니다

2026.03.13 기준 / Claude Code v2.1.76 기준
GA 정식 지원

Claude Code 1M 컨텍스트,
Pro 플랜은 이 조건에서만 됩니다

2026년 3월 13일, Anthropic이 공식 발표 하나를 조용히 올렸습니다. Claude Opus 4.6과 Sonnet 4.6의 1M 토큰 컨텍스트 윈도우가 정식 지원(GA)으로 전환됐고, 추가 요금도 없다는 내용이었습니다. 많은 사람이 “드디어 공짜로 1M 쓴다”고 받아들였는데, 실제로는 조건이 붙어 있습니다.

78.3%
MRCR v2 1M 토큰 리콜 정확도
(출처: Anthropic 공식 블로그)
15%↓
Compaction 발생 감소율
(실제 파트너사 보고, GA 블로그)
Pro ❌
기본 포함 플랜 아님
(공식 Support 문서)

GA 전환, 뭐가 달라졌나

Claude Code 1M 컨텍스트는 사실 2026년 2월 5일 Opus 4.6 출시 때 베타로 먼저 나왔습니다. 당시에는 200K 토큰을 넘는 요청에 별도 요금 배율이 붙었고, API 호출에 anthropic-beta: context-1m-2025-08-07 헤더를 직접 넣어야 했습니다. 3월 13일부터는 그 두 가지가 동시에 사라졌습니다.

💡 공식 발표문과 실제 청구 구조를 같이 놓고 보니 이런 차이가 보였습니다

발표문에는 “no multiplier”라고 적혀 있습니다. 900K 토큰 요청도 9K 요청과 완전히 같은 토큰당 단가로 청구된다는 뜻입니다. 이전 베타에서는 200K 초과분에 요금 배율이 있었으니, 이건 진짜 변화입니다. (출처: Anthropic 1M Context GA 블로그, 2026.03.13)

구분 2026년 2월 (베타) 2026년 3월 13일 (GA)
beta 헤더 필수 불필요
200K 초과 요금 프리미엄 배율 적용 표준 단가 동일
Rate Limit 별도 1M 전용 풀 표준 계정 처리량 통합
미디어 한도 100개 600개 (이미지·PDF)

기존 코드를 건드리지 않아도 됩니다. 베타 헤더를 이미 보내고 있었다면 그냥 무시되고, 200K를 넘는 요청이 자동으로 1M 범위까지 처리됩니다. 클라우드 플랫폼도 Amazon Bedrock, Google Vertex AI, Microsoft Foundry 세 곳에서 동시 지원됩니다.

▲ 목차로 돌아가기

플랜별로 조건이 다릅니다

“1M 컨텍스트 정식 지원”이라는 표현이 넓게 퍼지면서 Pro 플랜 사용자들도 당연히 쓸 수 있다고 생각하는 경우가 많습니다. 공식 Support 문서를 직접 확인해보니 달랐습니다.

⚠️ Pro 플랜 사용자에게 해당하는 내용

Pro 플랜에서 Opus 4.6의 1M 컨텍스트를 사용하려면 추가 사용량(extra usage)이 필요합니다. 자동으로 포함된 게 아닙니다. 1~2번의 대용량 세션만으로 5시간 한도를 다 쓰는 경우가 실제로 보고됩니다. (출처: Anthropic Support, “Using Claude Code with your Pro or Max plan”)

플랜 Opus 4.6 1M Sonnet 4.6 1M API
Max / Team / Enterprise ✅ 기본 포함 추가 사용량 필요 표준 요금 전체 지원
Pro ❌ 추가 사용량 필요 추가 사용량 필요 표준 요금 전체 지원
Sonnet 4, 4.5 (구형) 구 beta 방식 그대로 (헤더 필요 + 프리미엄 요금) — GA 정책 미적용

결론부터 말씀드리면, GA 전환의 혜택을 추가 비용 없이 받을 수 있는 건 Max·Team·Enterprise 플랜의 Opus 4.6 사용자입니다. claude.ai 웹 앱이나 모바일 앱은 여기에 포함되지 않습니다. Claude Code(터미널·CLI 기준)가 기본 적용 대상입니다.

▲ 목차로 돌아가기

컨텍스트가 커졌는데 토큰이 줄어드는 경우

대부분의 글에서 1M 컨텍스트가 토큰 소모를 늘린다고 설명합니다. 실제로 그런 케이스가 많습니다. 그런데 반대 방향으로 흘러간 사례가 공식 블로그에 직접 실렸습니다.

💡 GA 블로그에서 발견한 역설 — 500K로 올렸더니 오히려 총 토큰이 줄었다

Anthropic 공식 1M Context GA 블로그에 수록된 Izzy Miller(AI Research Lead)의 사례입니다. Opus 컨텍스트를 200K에서 500K로 올렸더니 “에이전트가 더 효율적으로 작동했고, 전체 토큰 사용량이 오히려 줄었다”고 보고했습니다. 오버헤드 없이 목표에 집중할 수 있어서 더 짧은 대화로 끝났기 때문입니다. (출처: Anthropic 1M Context GA 블로그, 2026.03.13)

왜 이런 일이 생길까요. 200K 환경에서는 Claude가 컨텍스트 한계에 가까워질수록 Compaction이 자동 발동됩니다. 이전 대화를 요약하고 교체하는 과정인데, 이 과정 자체가 토큰을 씁니다. 그리고 요약 이후 Claude가 맥락을 다시 파악하려고 파일을 중복으로 읽는 일이 생깁니다. 600K~1M 환경에서는 이 패턴이 크게 줄어들면서 실질 사용 토큰이 감소하는 케이스가 나옵니다.

한 Reddit 사용자는 동일한 작업을 5번의 200K 세션으로 나눠 처리했을 때와 1번의 1M 세션으로 처리했을 때를 직접 비교했습니다. 5×200K 구성에서는 세션당 약 30~50K 토큰이 재진입 오버헤드로 소모됐고, 1×1M 구성에서는 그 오버헤드가 거의 없었습니다. 작업량은 같았지만 총 소모 토큰은 1M 구성이 낮았습니다. 단순히 창이 넓어진 게 아니라 반복 재진입이 사라진 덕분입니다.

▲ 목차로 돌아가기

MRCR 78.3%와 실전 체감의 간극

Anthropic이 공개한 핵심 수치는 MRCR v2 1M 8-needle 벤치마크 78.3%입니다. 1M 토큰짜리 텍스트 안에 숨겨진 8개 정보를 78.3%의 정확도로 찾아냅니다. 비교군인 Sonnet 4.5가 18.5%, Gemini 3 Pro가 26.3%이니 확실한 우위입니다. (출처: Anthropic Opus 4.6 공식 발표, 2026.02.05)

💡 벤치마크 방식과 Claude Code 실제 동작 방식이 다릅니다

MRCR v2 테스트는 단일 API 호출로 1M 토큰 전체를 한 번에 주입하는 방식입니다. 반면 Claude Code에서는 파일을 도구(Tool)를 통해 순차적으로 읽습니다. 이 두 방식은 모델이 정보를 처리하는 순서와 구조가 다르고, 커뮤니티에서는 도구 기반 읽기 방식에서는 200K 이상 구간에서 정확도가 낮아진다는 보고가 있습니다. 이 차이를 공식 문서에서 별도로 설명하지 않았습니다.

그렇다고 1M 컨텍스트 효과가 없다는 뜻은 아닙니다. 실무에서 가장 체감되는 개선은 긴 세션 유지 쪽입니다. 대규모 리팩터링이나 여러 파일에 걸친 버그 추적처럼 Claude가 초반에 파악한 내용을 끝까지 기억해야 하는 작업에서 Compaction 없이 진행되는 구간이 늘었다는 게 공통적인 반응입니다. 특정 파일의 세부 내용을 정확히 기억하는 능력보다, 전체 흐름을 잃지 않고 이어가는 능력에서 더 실질적인 차이가 납니다.

중요한 정보는 세션 초반부에 읽히도록 순서를 잡는 게 좋습니다. 컨텍스트의 앞부분과 뒷부분에서 정확도가 높고, 중간 구간은 상대적으로 약하다는 특성은 1M에서도 완전히 사라지지 않았습니다.

▲ 목차로 돌아가기

1M 전환 후 한도 소진이 빨라졌다면

3월 중순 이후 Reddit Claude Code 커뮤니티에서 “Max 플랜 5시간 한도가 이전보다 빨리 닳는다”는 보고가 반복적으로 올라왔습니다. Anthropic이 일부 케이스에서 버그를 인정하고 보상을 지급했습니다만, 구조적인 이유도 있습니다.

1M 컨텍스트로 바뀐 뒤 Compaction 발동 시점이 950K 토큰 근처로 밀렸습니다. 이전 200K 환경에서는 약 190K쯤 되면 Compaction이 발동되면서 컨텍스트가 가벼워졌습니다. 지금은 그 지점까지 세션이 훨씬 오래 버팁니다. 한 세션이 길어지면 대화 중 “고맙습니다” 한 마디에도 그 앞에 누적된 900K 토큰 전체가 입력 토큰으로 다시 계산됩니다. 짧은 말 한마디가 900K 토큰짜리 요청이 되는 구조입니다.

실제로 이렇게 됩니다

컨텍스트 800K 상태에서 짧은 확인 메시지 하나를 보내면, 그 요청의 입력 토큰은 약 800K입니다. 200K 환경의 동일 시점에서 보냈을 때(약 150K)와 비교하면 5배 이상 차이가 납니다. 한도 소진 속도가 빨라진 게 느껴지는 이유가 여기 있습니다.

대규모 리팩터링처럼 길게 이어가야 하는 작업에서는 1M이 효율적입니다. 반면 짧은 질답이 반복되는 일상 작업에서는 200K 환경 대비 한도 소모가 빠를 수 있습니다. Prompt Caching이 적용되면 재입력 토큰의 90%가 할인 단가로 처리되지만, Max·Team 플랜 구독자의 시간 한도에는 캐시 여부와 무관하게 전체 토큰이 카운트됩니다.

▲ 목차로 돌아가기

설정 한 줄로 조절하는 방법

1M 컨텍스트를 끄거나 Compaction 트리거 시점을 앞당기고 싶다면 환경변수 두 가지만 알면 됩니다. Claude Code 공식 환경변수 문서에 나온 내용입니다. (출처: code.claude.com/docs/en/env-vars)

1M 컨텍스트 완전 비활성화

# ~/.claude/settings.json
{
"env": {
"CLAUDE_CODE_DISABLE_1M_CONTEXT": "1"
}
}

이 설정을 넣으면 모델 선택기에서 [1m] 변형 자체가 사라집니다. 기업 컴플라이언스 요구사항이나 비용 예측 가능성이 필요한 환경에서 씁니다.

Compaction 트리거 시점 조절

# 전체 윈도우의 70%에서 Compaction 발동 (기본값: 95%)
{
"env": {
"CLAUDE_AUTOCOMPACT_PCT_OVERRIDE": "70"
}
}
# 또는 Compaction 기준 자체를 500K로 고정
{
"env": {
"CLAUDE_CODE_AUTO_COMPACT_WINDOW": "500000"
}
}

두 변수를 함께 쓰면 Compaction 발동 토큰 수 = COMPACT_WINDOW × AUTOCOMPACT_PCT로 계산됩니다. 예를 들어 500K × 70% = 350K 토큰에서 Compaction이 발동됩니다. 한도 소진을 예측 가능하게 관리하고 싶다면 이 조합이 실용적입니다.

모델 선택 방법 (Claude Code 터미널)

/model opus[1m]          # Opus 4.6 1M (기본 활성화)
/model sonnet[1m]        # Sonnet 4.6 1M (추가 사용량 필요)
/model claude-opus-4-6   # 일반 Opus 4.6 (200K)

▲ 목차로 돌아가기

자주 묻는 질문 5가지

Q1. claude.ai 웹에서도 1M 컨텍스트를 쓸 수 있나요?

현재 기준으로는 claude.ai 웹 앱과 모바일 앱에서는 1M 컨텍스트가 적용되지 않습니다. Claude Code(CLI/터미널)와 API가 대상입니다. Reddit에서 웹 앱 지원 시기를 묻는 글이 많고, Anthropic이 “아직 이유를 공개하지 않은 부분”입니다.

Q2. Sonnet 4.6에서도 1M이 되나요?

됩니다. 다만 Max·Team·Enterprise에서 Opus 4.6처럼 기본 포함은 아니고 추가 사용량이 필요합니다. API로 직접 사용한다면 표준 요금($3/$15 per MTok)으로 전체 1M 범위가 지원됩니다. 모델 선택기에서 /model sonnet[1m]으로 전환할 수 있습니다.

Q3. 기존에 beta 헤더를 쓰던 코드는 어떻게 해야 하나요?

그냥 두면 됩니다. GA 전환 이후 beta 헤더는 자동으로 무시됩니다. 코드를 바꾸지 않아도 정상 동작합니다. 단, Sonnet 4, Sonnet 4.5처럼 구형 모델의 1M 컨텍스트는 여전히 구 beta 방식 그대로라 헤더가 필요합니다. Opus 4.6, Sonnet 4.6에만 GA 정책이 적용됩니다.

Q4. AWS Bedrock에서도 같은 조건인가요?

요금 정책은 GA와 동일하게 적용됩니다. 다만 처리량(Rate Limit)은 다릅니다. Bedrock에서 Opus 4.6의 1M 컨텍스트는 “preview” 클래스로 분류돼 있어 표준 클래스 대비 처리량이 낮은 것으로 알려져 있습니다. 계정·리전별 차이가 있으므로 AWS Bedrock Quotas 문서에서 실제 한도를 확인하는 게 좋습니다. 대규모 프로덕션이라면 Anthropic 직접 API나 Vertex AI가 더 안정적인 처리량을 제공합니다.

Q5. 1M 컨텍스트를 쓰면 응답 속도가 느려지나요?

첫 토큰이 나오기까지 시간(TTFT)은 컨텍스트 크기에 비례해 늘어납니다. 실제로 800K 이상 채워진 세션에서는 응답 시작이 눈에 띄게 늦어진다는 보고가 있습니다. Prompt Caching이 적용되면 캐시 히트 시 레이턴시를 약 85% 줄일 수 있습니다(입력 토큰 비용도 90% 절감). Claude Code에서는 caching이 자동 적용됩니다.

▲ 목차로 돌아가기

마치며

3월 13일의 GA 전환은 분명한 진전입니다. 추가 요금 없이 900K 토큰을 처리할 수 있고, 베타 헤더를 지워야 하는 번거로움도 사라졌습니다. 하지만 “무조건 좋아졌다”는 식으로 받아들이면 실망할 포인트가 생깁니다.

Pro 플랜이면 포함 안 됩니다. claude.ai 웹 앱이면 해당 안 됩니다. 짧은 대화를 반복하는 용도라면 오히려 한도 소진이 빨라질 수 있습니다. 반대로 긴 리팩터링 세션이나 대규모 코드베이스 분석처럼 한 세션을 길게 끌어가야 하는 작업에서는 체감 효과가 뚜렷합니다.

어떤 작업을 주로 하는지, 어떤 플랜을 쓰는지에 따라 GA 전환의 실질 가치가 완전히 달라집니다. 조건을 먼저 확인하고, 그게 맞다면 써볼 만한 기능입니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

  1. Anthropic 공식 발표 — Introducing Claude Opus 4.6 https://www.anthropic.com/news/claude-opus-4-6
  2. Anthropic 공식 블로그 — 1M Context GA https://claude.com/blog/1m-context-ga
  3. Anthropic Support — Using Claude Code with Pro or Max plan https://support.claude.com/en/articles/11145838
  4. Claude Code 공식 환경변수 문서 https://code.claude.com/docs/en/env-vars
  5. Reddit r/ClaudeAI — 1M Context GA 공식 스레드 (2026.03.13) https://www.reddit.com/r/ClaudeAI/comments/1rsubm0/

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치와 조건은 2026년 3월 13일 기준이며, 최신 정보는 Anthropic 공식 문서에서 확인하시기 바랍니다. 본 포스팅은 Anthropic의 공식 입장을 대표하지 않습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기