Claude Code 1M 컨텍스트, Max 플랜만 자동입니다

Published on

in

Claude Code 1M 컨텍스트, Max 플랜만 자동입니다

2026.03.13 GA 기준
Claude Opus 4.6 / Sonnet 4.6
Claude Code

Claude Code 1M 컨텍스트, Max 플랜만 자동입니다

2026년 3월 13일, Anthropic이 Claude Code에 100만 토큰 컨텍스트 창을 정식 출시했습니다. 그런데 Pro 플랜에서는 자동 적용이 안 됩니다. 더 크다고 더 잘 작동하는 것도 아니고요. 공식 수치로 직접 확인했습니다.

78.3%
MRCR v2 정확도(1M)
802K
실제 사용 가능 토큰
15%↓
압축 이벤트 감소

1M 컨텍스트 GA — 실제로 달라진 것

2026년 3월 13일, Anthropic이 공식 블로그를 통해 Claude Opus 4.6과 Sonnet 4.6의 100만 토큰 컨텍스트 창을 정식 출시(GA)했습니다. (출처: claude.com/blog/1m-context-ga, 2026.03.13)

GA 이전에는 200K 토큰을 초과하는 요청에 2배 요금 할증이 붙었습니다. Opus 4.6 기준 입력 토큰이 1M당 $5에서 $10으로 뛰었죠. 지금은 그 할증이 완전히 사라졌습니다. 900K짜리 요청이나 9K짜리 요청이나 토큰당 단가가 같습니다.

그 외에도 몇 가지가 함께 바뀌었습니다. 베타 헤더(`anthropic-beta: long-context-2025-01-01`) 없이도 200K 초과 요청이 자동으로 처리되고, 요청당 미디어 한도가 기존 100개에서 600개(이미지·PDF 페이지)로 6배 늘었습니다. Claude Platform은 물론 Amazon Bedrock, Google Vertex AI, Microsoft Foundry에서도 동시 적용됩니다.

💡 공식 발표와 실제 플랜 적용 조건을 같이 놓고 보니, “GA = 모두에게 자동 적용”은 아니었습니다.
Max/Team/Enterprise는 자동이지만 Pro는 직접 opt-in이 필요합니다. 아래에서 자세히 설명합니다.

▲ 목차로 돌아가기

Pro 플랜은 자동 적용이 안 되는 이유

공식 발표문을 직접 읽으면 이렇게 나와 있습니다. “1M context is now included in Claude Code for Max, Team, and Enterprise users with Opus 4.6 automatically.” (출처: claude.com/blog/1m-context-ga, 2026.03.13) 즉, Pro 플랜 사용자는 자동이 아닙니다.

Pro 플랜에서 1M 컨텍스트를 쓰려면 Claude Code 터미널에서 직접 /extra-usage를 입력해 opt-in 해야 합니다. (출처: karozieminski.substack.com, 2026.03.16) 이 명령어를 치지 않으면 여전히 200K 제한이 적용됩니다.

왜 이렇게 구분할까요? Anthropic의 수익 구조를 보면 단서가 있습니다. 전체 매출의 약 70~75%가 API 및 토큰 소비 기반이고, Claude Code 단독으로는 연환산 매출이 이미 $25억을 넘었습니다. (출처: karozieminski.substack.com, 2026.03.16) Max 이상 플랜은 자동 활성화로 더 많이 쓰게 유도하고, Pro 플랜은 opt-in 단계를 두어 업그레이드 신호로 활용하는 구조입니다. 프리미엄 마진을 지키면서 상위 플랜 전환을 자연스럽게 유도합니다.

플랜별 1M 컨텍스트 적용 방식

플랜 1M 자동 적용 비고
Free 3월 한정 보너스 프로모션 별도 적용
Pro ($20/월) /extra-usage 직접 입력 필요
Max 5x / 20x Opus 4.6에서 기본 활성화
Team / Enterprise 별도 설정 불필요

▲ 목차로 돌아가기

1M 토큰, 클수록 정확도가 낮아지는 구간이 있습니다

당연히 크면 좋을 것 같죠. 막상 수치를 보면 다릅니다.

Anthropic 공식 발표에 따르면 Opus 4.6의 MRCR v2(Multi-Round Coreference Resolution) 정확도는 1M 토큰 기준 78.3%입니다. 같은 8-needle 변형 테스트에서 Sonnet 4.5는 18.5%, Gemini는 26.3%였습니다. (출처: anthropic.com/news/claude-opus-4-6, 2026.02.05) 경쟁 모델 대비 압도적이지만, 중요한 부분은 Opus 4.6을 256K 구간에서 테스트하면 정확도가 92~93%로 올라간다는 점입니다. (출처: paddo.dev/blog/million-token-context, 2026.03.15)

⚠️ 핵심 수치: 1M 풀 활용 시 약 1회에 4번꼴로 검색 실패가 발생합니다. 256K 구간 대비 정확도가 약 15%p 떨어집니다. 단순히 창이 커졌다고 기억력이 함께 좋아지는 게 아닙니다.

여기에는 구조적인 이유가 있습니다. 2024년 Liu et al. 연구(Lost in the Middle, arXiv:2307.03172)에서 확인된 U자형 성능 곡선이 Claude에도 적용됩니다. 컨텍스트 앞뒤에 있는 정보는 잘 기억하지만, 중간에 묻힌 정보는 30% 이상 성능이 떨어집니다. 이건 패치로 고칠 수 있는 버그가 아니라, 현재 포지셔널 임베딩 방식의 구조적 특성입니다. 쉽게 말해, 1M짜리 대화를 3시간 동안 쌓으면 앞과 끝은 잘 기억하지만 중간 1~2시간 분량은 흐릿해집니다.

실사용자들 사이에서도 같은 현상이 보고됩니다. Reddit /r/ClaudeCode에서 한 개발자는 “850K 근처까지 밀어봤더니 버벅거리고 멍청해진다(gets obstinate and stupid)”고 표현했습니다. 또 다른 사용자는 “Anthropic의 공식 릴리즈 정보에도 대형 컨텍스트에서 약 20% 성능 저하가 있다고 나와 있다, 200K 근처에서 압축하고 성능을 유지해라”라고 조언했습니다. (출처: reddit.com/r/ClaudeCode, 2026.03.15)

▲ 목차로 돌아가기

실제로 쓸 수 있는 토큰은 802K입니다

Claude Code가 내부적으로 컨텍스트를 처리하는 방식을 보면, 명목 한도와 실제 사용 가능 토큰 수 사이에 차이가 있습니다.

Claude Code는 약 33K 토큰을 버퍼로 예약하고, 전체 컨텍스트의 약 83.5%가 채워지는 시점에 압축(compaction)을 자동 실행합니다. (출처: paddo.dev/blog/million-token-context, 2026.03.15) 이걸 계산하면 이렇습니다.

📐 실제 사용 가능 토큰 계산

• 200K 기준: 200,000 × 83.5% ≈ 약 134K 토큰 사용 후 압축 시작

• 1M 기준: 1,000,000 × 83.5% ≈ 약 802K 토큰 사용 후 압축 시작

단순히 5배가 늘어난 게 아니라 134K → 802K, 거의 6배의 공간을 확보한 겁니다. 첫 압축 이전까지 가져갈 수 있는 맥락 분량이 이렇게 달라집니다. 3시간짜리 코딩 세션에서 아키텍처 결정 내역이 압축으로 날아가는 빈도가 줄어드는 이유가 여기 있습니다.

그래서 Jon Bell(Anthropic CPO)이 언급한 “압축 이벤트 15% 감소”라는 수치가 실제로는 체감 이상의 차이를 만듭니다. (출처: claude.com/blog/1m-context-ga, 2026.03.13) 압축은 한 번씩 쌓일수록 누적 손실이 커지는데, 첫 압축 시점을 뒤로 미루는 것 자체가 세션 전체 품질에 큰 영향을 줍니다.

▲ 목차로 돌아가기

GPT-5.4와 요금 비교 — 272K가 분기점입니다

“GPT-5.4도 1M 토큰 된다”는 말은 맞지만, 요금 구조가 다릅니다. 이 차이가 실제 청구서에서 꽤 크게 나타납니다.

OpenAI GPT-5.4는 API 기준 입력 토큰이 272K 이하일 때 $2.50/1M 토큰이고, 272K를 넘어가는 순간 세션 전체 요금이 2배($5.00/1M)로 올라갑니다. 초과분만 비싸지는 게 아니라 그 요청 전체에 적용됩니다. (출처: karozieminski.substack.com, 2026.03.16) 예를 들어 300K 입력 요청은 250K 요청보다 약 2배가 청구됩니다. 세션 중반에 조용히 넘어가기 때문에 월말 청구서를 보기 전까지 모르는 경우가 많습니다.

📊 1M 컨텍스트 모델 API 요금 비교 (2026.03 기준)

모델 입력 기본가 장문 할증 할증 기준
Claude Opus 4.6 $5/1M 없음
Claude Sonnet 4.6 $3/1M 없음
GPT-5.4 $2.50/1M 2배 272K 초과 시
GPT-4.1 $2/1M 없음

※ 출처: paddo.dev/blog/million-token-context (2026.03.15), karozieminski.substack.com (2026.03.16)

솔직히 말하면, 기본 단가만 보면 GPT-4.1이 제일 쌉니다. Claude Opus 4.6 단가($5)보다 60% 저렴합니다. 하지만 할증 구조가 없는 Claude와 272K 이후 2배로 뛰는 GPT-5.4를 에이전트 워크플로우에 쓸 때 비교하면, 장문 세션에서는 Claude 쪽이 예측 가능성이 훨씬 높습니다.

▲ 목차로 돌아가기

비용 폭발 주의 — 실제로 벌어진 사례

1M 컨텍스트가 “요금 걱정 없이 마음껏”을 의미하지는 않습니다. 플랫 요금이라는 게 절대적으로 싸다는 뜻이 아니라, 예측 불가한 할증이 없다는 뜻입니다.

계산식으로 먼저 보면 이렇습니다. Opus 4.6 입력 기준 900K 토큰짜리 요청 하나의 비용은 $5 × 0.9 = $4.50입니다. 1회 연구 세션으로는 괜찮아 보이지만, 에이전트가 루프로 돌리는 경우 하루에 100달러를 훌쩍 넘길 수 있습니다. Hacker News 댓글에서는 “Opus 4.6 + Claude Code 1M 컨텍스트를 쓰면 하루에 $150~$200어치 토큰이 나간다”는 얘기도 나왔습니다. (출처: news.ycombinator.com, 2026.03.13)

실제로 발생한 사고 사례도 있습니다. Cursor에서 Claude Code를 쓰던 한 개발자가 AI 툴 호출 한 번으로 데이터베이스 전체를 읽어오면서 단일 호출로 800K 토큰이 소비됐습니다. 창이 커졌다고 해서 무엇이든 집어넣는 습관이 생기면, 더 큰 창은 더 큰 비용 폭발의 조건이 됩니다. (출처: karozieminski.substack.com, 2026.03.16)

💡 Anthropic이 직접 권고한 방향과 실제 사용 습관이 충돌하는 지점입니다.

Anthropic 공식 컨텍스트 엔지니어링 가이드에는 이렇게 나와 있습니다 — “목표는 원하는 결과를 최대화할 수 있는 가장 작은 고신호 토큰 집합을 찾는 것”이라고요. (출처: anthropic.com/engineering/effective-context-engineering-for-ai-agents) 1M을 최대한 채우는 게 목표가 아니라, 필요한 것만 정확히 넣는 게 여전히 핵심입니다.

개인적으로 이 부분이 가장 중요하다고 봅니다. 창이 커지면 프롬프트 설계를 덜 신경 쓰게 되는 경향이 생깁니다. 그런데 컨텍스트를 무계획하게 쌓으면, 비용만 늘고 품질은 오히려 떨어질 수 있습니다. 1M은 안전망이지, 기본 설정값이 아닙니다.

▲ 목차로 돌아가기

Q&A

Q1. Pro 플랜에서 1M 컨텍스트를 쓰려면 매번 /extra-usage를 입력해야 하나요?
공식 문서에 별도 해제 방법이 명시되어 있지 않습니다. 세션마다 재입력이 필요한지 여부는 Anthropic이 공식 답변을 내놓지 않은 부분입니다. 현재로서는 세션 시작 전 확인하는 습관이 안전합니다.
Q2. MRCR v2 78.3%는 신뢰할 수 있는 수치인가요?
78.3%는 Anthropic 자체 발표 수치입니다. (출처: anthropic.com/news/claude-opus-4-6, 2026.02.05) 독립 기관의 검증은 아직 진행 중입니다. 그러나 경쟁 모델 대비 수치는 유의미한 차이를 보이는 건 맞습니다 — Gemini 26.3%, 이전 Claude 최고 18.5%와 비교하면 실질적인 개선입니다.
Q3. 3월 한정 보너스 프로모션은 무엇인가요?
Anthropic이 2026년 3월 13일 함께 발표한 한정 프로모션으로, 평일 오전 8시~오후 2시(미국 동부 기준) 이외 시간대에 모든 플랜(Free 포함) 사용량 한도를 2배로 제공합니다. (출처: support.claude.com, 2026.03.13) 종료 시점은 공개되지 않았습니다.
Q4. Gemini도 1M 토큰이라고 하는데 뭐가 다른가요?
창 크기는 같지만 두 가지가 다릅니다. 첫째, 요금 구조입니다 — Gemini 2.5 Pro는 200K 이하 $1.25/1M, 초과 시 $2.50/1M으로 구간 요금제입니다. Claude는 전 구간 동일 단가입니다. 둘째, 장문 정확도입니다 — MRCR v2 기준 Claude Opus 4.6(78.3%) vs Gemini(26.3%)로 텍스트 중심 작업에서 차이가 큽니다.
Q5. 1M 컨텍스트가 항상 켜져 있으면 응답 속도가 느려지나요?
실사용 환경에서 850K 이상 채웠을 때 “지연이 심했다(latency was awful)”는 보고가 있습니다. (출처: reddit.com/r/ClaudeCode, 2026.03.15) 이는 GPU 메모리 요구량이 증가하기 때문입니다. 창 크기 자체보다 실제 채워진 토큰 양에 비례해 응답 시간이 늘어나는 경향이 있습니다.

▲ 목차로 돌아가기

마치며 — 숫자보다 중요한 것

1M 컨텍스트 GA는 분명히 의미 있는 업그레이드입니다. 압축이 줄고, 장시간 세션의 맥락 손실이 줄고, 경쟁사 대비 요금 구조가 예측 가능해졌습니다. 그리고 이 변화는 코딩 작업에서 가장 즉각적으로 체감됩니다.

하지만 수치를 직접 확인해 보면, 몇 가지를 모르고 시작하면 손해를 보는 구간이 있습니다. Pro 플랜은 자동 적용이 아니고, 1M 풀로 채울수록 정확도는 78.3%로 낮아지며, 에이전트 루프에서 무계획하게 쓰면 하루 $150~$200 청구도 현실입니다.

결국 Anthropic이 직접 권고한 것처럼, 1M은 목표치가 아니라 안전망으로 보는 게 맞습니다. 필요한 것만 정확히 넣고, 압축 전략은 여전히 의식적으로 챙기는 것이 비용과 품질 모두 잡는 방법입니다. 창이 커졌다고 프롬프트 설계를 게을리하면, 더 큰 창은 더 큰 문제가 됩니다.

📚 본 포스팅 참고 자료

  1. Anthropic 공식 블로그 — 1M Context GA 발표 (claude.com/blog/1m-context-ga, 2026.03.13)
  2. Anthropic 공식 — Claude Opus 4.6 소개 (anthropic.com/news/claude-opus-4-6, 2026.02.05)
  3. Paddo.dev — Context Stops Being Scarce (paddo.dev, 2026.03.15)
  4. Karo Zieminski — Claude 1M Context Window Guide 2026 (Substack, 2026.03.16)
  5. Anthropic 공식 API 문서 — Context Windows (platform.claude.com)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치와 플랜 정보는 2026년 3월 13~21일 기준이며, Anthropic의 업데이트에 따라 달라질 수 있습니다. 최신 정보는 claude.com 공식 페이지에서 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기