Claude Code 1M 컨텍스트, 공짜처럼 보이는데 이 조건 먼저 보세요

Published on

in

Claude Code 1M 컨텍스트, 공짜처럼 보이는데 이 조건 먼저 보세요

2026.03.13 GA 기준
Claude Code v2.1.76 기준
Opus 4.6 기준

Claude Code 1M 컨텍스트, 공짜처럼 보이는데 이 조건 먼저 보세요

2026년 3월 13일, Anthropic이 Claude Code의 1M 토큰 컨텍스트를 정식 출시했습니다. “추가 요금 없음”, “900K도 9K와 같은 단가”라는 발표가 나왔는데 — 막상 써본 사람들 이야기는 달랐습니다. Max 플랜 사용자가 1주일에 $173 초과 청구를 받았고, $50 크레딧이 3시간 만에 소진됐습니다. 공식 발표문과 실제 청구 구조를 같이 놓고 보니 이런 차이가 보였습니다.

78.3%
MRCR v2 (1M 8-needle)
Opus 4.6 공식
15%
Compaction 감소율
Anthropic 공식 발표
$173
Max 플랜 1주 초과 청구
실제 GitHub 이슈 사례
~3시간
$50 크레딧 소진 시간
실사용 후기

1M 컨텍스트가 뭔지부터 — 토큰 크기 체감 정리

Claude Code 1M 컨텍스트라는 게 결국 뭐냐면, AI가 한 번의 세션에서 처리할 수 있는 텍스트 총량의 상한선입니다. 1M = 100만 토큰인데, 한국어 기준으로 대략 30만~50만 글자에 해당합니다. 체감상으로 설명하면 이렇습니다.

💡 공식 발표문과 실제 작업 규모를 같이 놓고 보니 이런 차이가 보였습니다
컨텍스트 크기 실제 규모 코드베이스 예시
200K 토큰 중편 소설 1권 분량 소스 파일 200~300개
1M 토큰 두꺼운 소설 5~7권 대규모 모노레포 전체

Compaction이란 컨텍스트가 꽉 차기 전에 이전 대화를 요약해서 공간을 확보하는 과정인데, 이 과정에서 미묘한 맥락 손실이 생깁니다. 1M 컨텍스트는 이 Compaction이 훨씬 늦게 발동된다는 게 핵심입니다.

실제 개발 현장에서 200K 한계가 걸리는 상황은 대규모 리팩터링, 장기 디버깅 세션, 레거시 코드베이스 전체 파악 같은 작업들이었습니다. 수십 개 파일을 동시에 열고 작업하다 보면 컨텍스트 창이 의외로 빨리 차버렸으니까요.

▲ 목차로 돌아가기

3월 13일에 실제로 달라진 것 3가지

Anthropic이 2026년 3월 13일 공식 블로그(claude.com/blog/1m-context-ga)에서 발표한 변경사항은 크게 세 가지입니다. 이전에는 1M 컨텍스트를 쓰려면 beta header를 코드에 직접 삽입해야 했고, 200K 초과분에 프리미엄 요금이 붙었으며, 별도의 Rate Limit이 있었습니다.

① beta header가 사라졌습니다

이전에는 API를 직접 쓸 때 anthropic-beta: context-1m-2025-08-07라는 헤더를 요청에 포함시켜야 했습니다. 3월 13일 이후에는 200K를 넘는 요청이 자동으로 처리됩니다. 기존 코드를 건드릴 필요가 없다는 게 실용적으로 크게 편해진 부분입니다.

Claude Code를 쓰고 있다면 v2.1.75 이상에서 이미 자동 적용되어 있습니다.

② 900K 토큰도 9K와 같은 단가 — 단, Opus 4.6 / Sonnet 4.6에 한해서

공식 발표에 따르면, Anthropic API 기준으로 Opus 4.6은 입력 $5/MTok, Sonnet 4.6은 입력 $3/MTok으로 컨텍스트 크기에 상관없이 동일한 단가가 적용됩니다. (출처: Anthropic 공식 가격 문서, platform.claude.com/docs/en/about-claude/pricing)

⚠️ 주의: 이 정책은 Opus 4.6과 Sonnet 4.6에만 해당합니다. Sonnet 4, Sonnet 4.5는 여전히 구 beta 방식으로 200K 초과 시 프리미엄 요금이 부과됩니다.

③ Compaction 이벤트 15% 감소

Anthropic 공식 발표에 따르면, 1M 컨텍스트 도입 후 Claude Code에서 Compaction 이벤트가 15% 감소했다고 밝혔습니다. (출처: Anthropic 1M Context GA 공식 블로그, 2026.03.13) 이건 단순히 창이 커졌다는 의미를 넘어서, 실제로 맥락 손실이 줄었다는 걸 수치로 보여준 겁니다.

▲ 목차로 돌아가기

“추가 요금 없다”는 말이 통하는 플랜, 안 통하는 플랜

여기서 가장 중요한 포인트가 나옵니다. Anthropic 공식 발표에 “추가 요금 없음”이라고 명시되어 있는데, 이게 모든 플랜에 해당하는 말이 아닙니다. 공식 문서(code.claude.com/docs/ko/model-config)를 직접 확인하면 플랜별로 조건이 다릅니다.

플랜 Opus 4.6 1M 포함 여부 Sonnet 4.6 1M 초과 시
Max / Team / Enterprise ✅ 기본 포함 추가 사용량 필요 Extra Usage (API 요금)
Pro ($20/월) ❌ 추가 사용량 필요 추가 사용량 필요 Extra Usage (API 요금)
API 직접 사용 ✅ 표준 요금으로 전체 지원 ✅ 표준 요금으로 전체 지원 토큰당 청구
⚠️ Max 플랜에서도 $173 초과 청구가 발생했습니다

2026년 2월 말, Anthropic 공식 GitHub 이슈(#29289)에 Max 플랜 사용자가 Claude Code v2.1.33에서 opus[1m] 모델을 사용하다 1주일 만에 $173.43의 Extra Usage가 발생했다는 보고가 올라왔습니다. 이슈 작성자는 “주간 사용량 지표는 13% 사용으로 표시되고 있었는데 초과 요금이 쌓였다”고 밝혔습니다. 당시 Anthropic 측의 사용량 리포팅 장애(incident 9s03yn69ky6m)와 묵시적 청구 정책 변경이 겹친 결과였습니다. (출처: github.com/anthropics/claude-code/issues/29289)

핵심은 이겁니다. “추가 요금 없음”이라는 표현은 Max/Team/Enterprise에서 Opus 4.6을 쓸 때, 구독 한도 내에서 1M 컨텍스트에 대해 별도 프리미엄이 붙지 않는다는 의미입니다. 그 한도를 넘어가면 API 표준 요금으로 전환됩니다. Pro 플랜 사용자는 처음부터 이 “추가 요금 없음” 범위에 포함되지 않습니다.

▲ 목차로 돌아가기

비용이 지수적으로 오르는 이유 — 직접 계산해봤습니다

“$50 크레딧이 3시간 만에 증발했습니다”는 이야기를 처음 보면 과장처럼 들립니다. 그런데 이건 구조적으로 일어날 수밖에 없는 일입니다. 1M 컨텍스트의 핵심 장점 — “Compaction을 안 한다” — 이 동시에 비용 구조의 함정이 됩니다.

💡 이 계산 구조는 공식 요금 문서를 바탕으로 직접 산출한 수치입니다

1M 컨텍스트를 쓸 때 비용이 선형이 아닌 이유는 이렇습니다. API를 직접 쓰는 경우, 매 요청마다 그 시점까지 누적된 대화 전체가 입력 토큰으로 포함됩니다. 예를 들어 Opus 4.6 입력 요금 $5/MTok(100만 토큰당 $5)을 기준으로 계산하면:

세션 초반 (누적 10K 토큰): 쿼리 1회당 입력 비용 ≈ $0.05
세션 중반 (누적 200K 토큰): 쿼리 1회당 입력 비용 ≈ $1.00
세션 후반 (누적 600K 토큰): 쿼리 1회당 입력 비용 ≈ $3.00
→ 같은 작업도 세션이 길어질수록 단위당 비용이 60배 차이

(Opus 4.6 API 입력 $5/MTok 기준, 2026.03.13 공식 요금 기준 산출. 출력 토큰 $25/MTok 별도. 실제 비용은 출력 토큰 비중에 따라 달라질 수 있습니다.)

기존 200K 모델은 Compaction으로 오래된 대화를 날려버리기 때문에 세션이 길어도 쿼리당 입력 토큰이 일정 수준을 유지했습니다. 불편하지만 비용은 예측 가능했습니다. 1M 모델은 그 대화를 그대로 들고 있는 대신, 시간이 지날수록 쿼리당 비용이 눈덩이처럼 불어납니다. 초반 한 시간은 $10도 안 들었는데 마지막 한 시간에 $20이 나간 실사용 경험은 이 구조에서 당연히 나오는 결과입니다.

💰 API 직접 사용자라면 이 기준으로 세션 전략을 짜세요

하루 작업 예산이 $10이고 Opus 4.6 API를 직접 쓴다면, 세션 하나를 끝까지 늘리는 것보다 목적 달성 후 새 세션으로 시작하는 편이 비용상 유리합니다. Claude Code에서는 CLAUDE_CODE_DISABLE_1M_CONTEXT=1 환경변수로 1M 컨텍스트를 끄고 필요할 때만 켤 수 있습니다. (출처: code.claude.com/docs/ko/model-config)

Max/Team/Enterprise 구독자라면 구독 한도 내에서는 이 지수적 증가가 직접 요금으로 잡히지 않습니다. 단, 한도를 초과하면 그 순간부터 API 표준 요금이 적용되므로 사용량 대시보드를 주기적으로 체크하는 습관이 필요합니다.

▲ 목차로 돌아가기

벤치마크 78.3%와 실제 Claude Code 동작이 다른 이유

Anthropic 공식 발표에서 Opus 4.6이 MRCR v2(1M 8-needle) 벤치마크에서 78.3%를 기록했다고 밝혔습니다. 비교 수치를 같이 보면 의미가 더 명확해집니다 — Claude Sonnet 4.5는 18.5%, Gemini 3 Pro는 26.3%였습니다. (출처: Anthropic 1M Context GA 공식 블로그, 2026.03.13) 숫자로만 보면 압도적입니다.

💡 벤치마크 측정 방식과 실제 Claude Code 동작 방식이 다릅니다

MRCR v2는 100만 토큰짜리 텍스트를 단일 API 호출로 한 번에 주입하는 방식입니다. 거대한 문서 하나를 통째로 넣고 그 안에서 8개 정보를 찾아내는 시나리오죠. 반면 Claude Code는 파일을 도구(Tool)로 순차적으로 읽어 들이는 방식으로 동작합니다. 파일 A를 읽고, 파일 B를 읽고, 그 결과가 쌓이는 형태입니다.

커뮤니티에서 보고된 경험에 따르면 툴 기반 순차 읽기 방식에서는 200K~300K 구간을 넘어가면 정확도가 낮아지는 경우가 있습니다. 이건 Opus 4.6의 문제가 아니라 단일 주입(single-context injection)과 다중 툴 호출(multi-tool sequential read)이 모델에게 다른 방식으로 처리된다는 의미입니다.

→ 실질적 권장 사항: 초반에 로드한 파일일수록 모델이 더 잘 기억합니다. 세션 시작 시 가장 중요한 파일을 먼저 읽혀두는 전략이 유효합니다.

그리고 하나 더 — Opus 4.6의 최대 출력 토큰은 128K이지만 Sonnet 4.6은 64K입니다. (출처: Anthropic 공식 모델 문서) 긴 컨텍스트를 로드했을 때 길고 복잡한 출력이 필요한 작업이라면 Sonnet으로는 한 번에 처리가 안 되는 경우가 생깁니다. 1M 컨텍스트를 제대로 활용하려면 입력과 출력 양쪽을 고려해야 합니다.

▲ 목차로 돌아가기

플랜별 실제 체크리스트

결론부터 말씀드리면, 플랜에 따라 1M 컨텍스트를 쓰는 방식이 완전히 달라야 합니다. 같은 기능이지만 진입 조건과 비용 구조가 다릅니다.

✅ Max / Team / Enterprise 사용자

  • Claude Code v2.1.75 이상에서 Opus 4.6 1M이 자동 활성화됩니다
  • /model 명령어로 현재 모델과 컨텍스트 창 크기를 확인하세요
  • 구독 한도 내에서는 추가 요금이 없지만, 한도 초과 즉시 API 요금으로 전환됩니다
  • 사용량 대시보드(claude.ai/settings/usage)에서 주기적으로 잔여량을 확인하세요
  • Extra Usage 알림 설정을 반드시 켜두세요 (설정에서 활성화)
  • Prompt Caching을 활용하면 반복 참조 시 비용을 최대 90% 절감할 수 있습니다 — Claude Code는 자동 적용

⚠️ Pro ($20/월) 사용자

  • Opus 4.6 1M은 플랜 기본 포함이 아닙니다 — Extra Usage 활성화 필요
  • Extra Usage는 API 표준 요금(Opus 4.6 입력 $5/MTok)으로 즉시 과금됩니다
  • 대용량 파일 처리나 장기 세션이 없다면 1M 컨텍스트를 끄는 편이 안전합니다
  • 환경변수 CLAUDE_CODE_DISABLE_1M_CONTEXT=1으로 비활성화 가능
  • 200K로도 충분한 작업에 1M이 자동 활성화되면 불필요한 비용이 발생합니다

🔧 AWS Bedrock / Google Vertex AI 사용자

  • Bedrock: 1M context는 “preview” 티어로 제공, 처리량이 표준 대비 크게 낮습니다 (계정·리전별 상이)
  • Vertex AI: us-east5, europe-west1, asia-southeast1 리전에서 지원, 200 QPM / 2M TPM
  • 대규모 처리량이 필요하다면 Anthropic 직접 API가 현재로선 안정적입니다
  • 실제 한도는 AWS Bedrock Quotas 페이지에서 계정별 직접 확인 필요합니다

▲ 목차로 돌아가기

자주 묻는 것들

Q. Pro 플랜 $20짜리 쓰는데, 1M 컨텍스트 그냥 써도 되나요?

쓸 수는 있는데, Extra Usage가 활성화되어 있다면 구독 한도를 넘는 순간 API 요금($5/MTok for Opus 4.6 입력)으로 바로 청구됩니다. 대용량 파일 작업이나 장기 세션이 없다면 CLAUDE_CODE_DISABLE_1M_CONTEXT=1으로 끄고 필요할 때만 켜는 게 낫습니다. (출처: code.claude.com/docs/ko/model-config)

Q. Sonnet 4.6도 1M이 된다는데, Opus 4.6이랑 뭐가 다른가요?

가장 큰 차이는 Max output 토큰입니다. Opus 4.6은 128K, Sonnet 4.6은 64K입니다. 긴 컨텍스트를 읽고 복잡한 출력을 생성해야 할 때 Sonnet은 중간에 끊기거나 두 번 요청해야 하는 상황이 생길 수 있습니다. 단가는 Sonnet 4.6이 더 저렴($3/$15 MTok)하니, 단순 코드 리뷰나 버그 수정은 Sonnet, 대규모 아키텍처 분석이나 장기 작업은 Opus를 쓰는 게 Anthropic 공식 권장입니다. (출처: Anthropic 공식 모델 가이드)

Q. Gemini는 2M 토큰이라는데, Claude 1M은 비교가 안 되는 거 아닌가요?

창 크기와 그 안에서 실제로 정확하게 찾아내는 능력은 다른 이야기입니다. Anthropic 공식 수치에 따르면 1M 8-needle MRCR v2 벤치마크에서 Opus 4.6이 78.3%를 기록한 반면 Gemini 3 Pro는 26.3%였습니다. (출처: Anthropic 1M Context GA 블로그, 2026.03.13) 창이 크다고 그 안에서 다 잘 찾는 게 아닙니다. 단, 이건 단일 API 호출 기준이고 실제 툴 기반 동작에서는 다를 수 있다는 점은 감안해야 합니다.

Q. 1M 컨텍스트 쓰다가 중간에 끄고 싶으면 어떻게 하나요?

세션 중에 /model opus 또는 /model sonnet으로 [1m] 없는 모델로 전환하면 됩니다. 또는 CLAUDE_CODE_DISABLE_1M_CONTEXT=1 환경변수를 ~/.claude/settings.json에 추가하면 전역으로 비활성화됩니다. (출처: code.claude.com/docs/ko/model-config)

Q. Prompt Caching을 직접 설정해야 하나요?

Claude Code에서는 자동으로 Prompt Caching이 적용됩니다. 별도 설정이 필요 없습니다. API를 직접 사용할 때는 cache_control 파라미터를 직접 설정해야 합니다. 캐시 읽기 비용은 기본 요금의 10%(Opus 4.6 기준 $0.50/MTok)로, 같은 내용을 반복 참조하는 세션에서 비용 절감 효과가 큽니다. (출처: Anthropic Prompt Caching 공식 문서)

▲ 목차로 돌아가기

마치며

1M 컨텍스트 자체는 분명히 방향이 맞는 업데이트입니다. Compaction 지옥에서 벗어나고, 대규모 코드베이스를 한 번에 올려놓고 작업하는 경험은 실제로 개발 흐름을 바꿔줍니다. MRCR v2에서 78.3%를 기록한 건 단순 마케팅 수치가 아니라, 맥락 유지 능력이 이전 세대와 다른 레벨이라는 증거입니다.

다만 “무조건 켜두면 좋다”는 접근은 문제가 됩니다. Max 플랜에서 $173 초과 청구 사례가 GitHub 공식 이슈로 올라왔고, API 직접 사용자는 세션이 길어질수록 쿼리당 비용이 지수적으로 올라갑니다. Pro 플랜은 애초에 “추가 요금 없음” 범위 밖입니다.

개인적으로는 이렇게 씁니다 — 대용량 파일 처리나 전체 코드베이스 분석이 필요할 때 1M으로 전환하고, 일반 코딩 작업은 기본 모델로 돌아오는 방식입니다. 쾌적함에 취해서 켜놓고 있으면 비용이 먼저 반응합니다.

💡 결론: 1M 컨텍스트는 좋습니다. 단, Max/Team/Enterprise 구독자가 Opus 4.6으로 쓸 때 한도 내에서 쓰는 경우에 한해서 요금 걱정 없이 쓸 수 있습니다. Pro 플랜이거나 API 직접 사용이라면 세션 전략과 사용량 모니터링이 필수입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Anthropic 공식 블로그 — 1M Context GA 발표 (2026.03.13): claude.com/blog/1m-context-ga
  2. Claude Code 공식 모델 구성 문서: code.claude.com/docs/ko/model-config
  3. Anthropic 공식 Extra Usage 안내: support.claude.com/ko/articles/12429409
  4. GitHub 공식 이슈 #29289 — Max 플랜 $173 초과 청구 사례 (2026.02): github.com/anthropics/claude-code/issues/29289
  5. Anthropic Pricing 공식 문서: platform.claude.com/docs/en/about-claude/pricing

※ 본 포스팅은 2026년 3월 13일 기준 Anthropic 공식 발표 및 공개 문서를 참고하여 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있습니다. 특히 Extra Usage 요금 정책, 플랜별 1M 컨텍스트 포함 여부, Rate Limit 기준은 업데이트로 달라질 수 있으니 최신 공식 문서를 직접 확인하시기 바랍니다. 본 포스팅에 포함된 비용 계산은 공식 요금 기준 추정치로, 실제 청구 금액과 차이가 있을 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기