Claude Code 1M 컨텍스트: “비싸다” 믿으면 매달 손해 보는 이유

Published on

in

Claude Code 1M 컨텍스트: “비싸다” 믿으면 매달 손해 보는 이유

2026.03.13 기준
Claude Code 최신 업데이트
Opus 4.6 / Sonnet 4.6

Claude Code 1M 컨텍스트:
“비싸다” 믿으면 매달 손해 보는 이유

2026년 3월 13일, Anthropic이 Claude Code의 100만 토큰 컨텍스트 창을 정식 출시(GA)하며 가격 구조를 전면 개편했습니다. 처음 들으면 “1M 토큰이면 청구서가 5배 폭등하겠지”라는 생각이 드는 게 자연스럽습니다. 그런데 Anthropic이 공개한 공식 수치와 사용자들의 실측 데이터는 정반대의 결론을 가리킵니다. 지금부터 그 이유를 숫자로 증명합니다.

78.3%
MRCR v2 점수
프론티어 모델 최고
15% ↓
컴팩션 이벤트 감소
Anthropic CPO 발표
6배
미디어 용량 확장
최대 600개 이미지/PDF

“1M 토큰 = 5배 비용” 계산이 왜 틀렸나

많은 사람들이 Claude Code 1M 컨텍스트 창 소식을 들었을 때 가장 먼저 한 계산이 있습니다. “200K → 1M이니까 사용 토큰이 5배 늘고, 청구서도 5배 나오겠네.” 이 계산은 표면적으로는 그럴듯해 보이지만, Claude Code의 실제 요금 구조를 무시한 단순 산술에 불과합니다.

Claude Code는 대화 중 이미 처리한 토큰을 프롬프트 캐싱(Prompt Caching)으로 저장합니다. 동일한 세션 안에서 이전에 읽은 토큰은 다음 요청 시 캐시 읽기 비용, 즉 정상 입력 가격의 약 10%만 부과됩니다. 쉽게 말해, 600K 토큰짜리 긴 세션을 유지하면 이후 질문마다 600K 전체를 새로 내는 것이 아니라 600K × 0.1 = 60K 토큰치만 추가 청구됩니다.

💡 이 계산을 직접 확인해 보세요

• 900K 토큰 단일 세션 (Opus 4.6 기준, $5/M 입력)

   → 첫 요청 전체 비용 + 이후 캐시 재활용 → 실질 비용 대폭 절감

• 450K 세션 × 2회 (동일 컨텍스트를 새 세션에서 재전송)

   → 첫 번째 세션 비용 + 두 번째 세션에서 동일한 컨텍스트를 100% 새로 전송 = 2× 지불

결론: 같은 작업량이라면 세션을 쪼개지 않고 하나로 유지하는 것이 더 저렴합니다. (출처: Anthropic 공식 블로그, 2026.03.13)

이전에는 200K를 넘으면 자동 컴팩션이 발생했습니다. 컴팩션 자체가 토큰을 소비하고, 이후 세션을 재개할 때 잊혀진 맥락을 다시 설명하는 데 또 토큰이 쓰입니다. 이번 GA로 컴팩션 발생 시점이 대폭 뒤로 밀리면서 불필요한 토큰 낭비가 사라진 것입니다. Anthropic CPO인 Jon Bell은 “1M 컨텍스트 도입 후 컴팩션 이벤트가 15% 감소했다”고 공식 발표했습니다. (출처: Anthropic 공식 블로그, 2026.03.13)

▲ 목차로 돌아가기

이번 GA로 실제로 달라진 것들

2026년 2월 5일 Opus 4.6 출시 당시, 1M 컨텍스트는 베타 기능이었고 200K 초과 구간에 프리미엄 요금($10/$37.50/M)이 붙었습니다. 사실상 일반 개발자가 자유롭게 쓰기엔 진입 장벽이 높았습니다. 그런데 3월 13일 GA 발표 이후 상황이 근본적으로 바뀌었습니다.

항목 GA 이전 (베타) GA 이후 (현재)
Opus 4.6 요금 (200K 초과) $10/$37.50 (2배 프리미엄) $5/$25 (플랫)
Sonnet 4.6 요금 (200K 초과) $6/$22.50 (2배 프리미엄) $3/$15 (플랫)
베타 헤더 필요 여부 anthropic-beta: long-context-2025-01-01 필수 불필요 (자동 적용)
미디어 처리 한도 이미지/PDF 최대 100개 최대 600개 (6배)
Claude Code 자동 적용 대상 미적용 Max·Team·Enterprise 플랜 Opus 4.6 세션 기본값

(출처: Anthropic 공식 블로그 https://claude.com/blog/1m-context-ga, 2026.03.13)

코드 변경도 불필요합니다. 이미 API에서 베타 헤더를 사용하던 경우, 해당 헤더는 이제 무시되므로 아무 조치 없이 GA 혜택이 자동 적용됩니다. Claude Code Max·Team·Enterprise 이용자는 터미널 재시작 시 ↑ Opus now defaults to 1M context · 5x more room, same pricing 메시지로 전환을 확인할 수 있습니다.

▲ 목차로 돌아가기

GPT-5.4 · Gemini 2.5 Pro와 요금 직접 비교

현재 1M 컨텍스트를 지원하는 주요 모델은 Claude Opus/Sonnet 4.6, GPT-5.4, GPT-4.1, Gemini 2.5 Pro입니다. 그런데 단순히 “지원 여부”만 보면 함정에 빠집니다. 각 모델이 200K 이상 구간을 어떻게 요금을 매기는지가 핵심입니다.

💡 공식 문서·가격표 교차 분석 결과

아래 수치는 Anthropic 공식 요금 페이지, OpenAI API 가격표, Google Vertex AI 가격표를 교차 확인한 내용입니다.

모델 200K 이하 입력가 200K 초과 입력가 플랫 요금?
Claude Opus 4.6 $5/M $5/M (동일) ✅ 완전 플랫
Claude Sonnet 4.6 $3/M $3/M (동일) ✅ 완전 플랫
GPT-5.4 $10/M (272K 이하) $20/M (272K 초과, 2배) ❌ 계단 요금
Gemini 2.5 Pro $1.25/M (200K 이하) $2.50/M (200K 초과, 2배) ❌ 계단 요금

(출처: Anthropic 요금 페이지, OpenAI API 가격표, Google Vertex AI 가격표 — 2026.03 기준)

이 수치가 실제로 의미하는 바는 명확합니다. GPT-5.4로 500K 토큰 세션을 운영하면 272K 초과분인 약 228K 토큰에 2배 요금이 부과됩니다. Gemini 2.5 Pro도 200K 초과분에 2배를 내야 합니다. 반면 Claude Opus 4.6은 1K든 900K든 토큰당 동일 요금입니다. 주목할 점은 Claude만이 플래그십 모델(Opus)과 중간 모델(Sonnet) 모두에 이 플랫 구조를 적용한다는 것입니다. 경쟁사는 계단식 요금이 여전히 장벽으로 작용합니다.

▲ 목차로 돌아가기

컨텍스트가 클수록 성능이 떨어지는 역설

많은 사람들이 “1M 토큰을 다 채울수록 AI가 더 똑똑해질 것”이라고 기대합니다. 그런데 Anthropic이 공개한 벤치마크 수치는 그 반대 방향을 가리킵니다. Opus 4.6의 MRCR v2 점수를 컨텍스트 크기별로 비교하면 이 역설이 명확하게 드러납니다.

컨텍스트 크기 Opus 4.6 MRCR v2 비고
256K 이하 92~93% 최고 성능 구간
1M (8-needle 변형) 76% 프론티어 최고점이지만 저하 발생
Sonnet 4.5 (1M) 18.5% 이전 세대 대비 Opus 4.6이 4배 우수

(출처: Anthropic 공식 발표 https://www.anthropic.com/news/claude-opus-4-6, 2026.02.05)

수치가 의미하는 바를 직접 계산해 볼 수 있습니다. 1M 토큰 상황에서 Opus 4.6의 정답률은 76%입니다. 바꿔 말하면 4회 중 1회는 컨텍스트 속에 숨겨진 정보를 찾지 못합니다. 이것은 프론티어 모델 중 가장 높은 수치임에도 불구하고, 애초에 256K 이하에서 달성하던 92~93% 수준에는 미치지 못합니다.

⚠️ “Lost in the Middle” 문제는 구조적 한계입니다

Liu et al. (2024) 연구에 따르면 LLM은 컨텍스트의 앞과 끝 부분에는 잘 집중하지만, 가운데에 위치한 정보는 30% 이상 성능이 저하됩니다. 이는 Claude만의 문제가 아닌, 현재 트랜스포머 아키텍처의 구조적 특성입니다. Anthropic 자신도 Claude 2.1 시절 단순 프롬프트 힌트 하나(“다음이 가장 관련 있는 문장입니다”)만으로 정확도가 27%→98%로 올라간 사례를 공개한 바 있습니다. 모델이 정보를 갖고 있어도 주의를 기울이지 않으면 찾지 못한다는 뜻입니다.

AI 에이전트 설계 프레임워크 12-Factor Agents는 컨텍스트 창의 40% 이상을 채우면 이른바 “Dumb Zone”에 진입한다고 표현합니다. 신호 대 잡음비가 무너지고 에이전트의 실수 빈도가 급격히 높아지는 구간입니다. 1M이 허용된다고 해서 1M을 목표로 채워야 한다는 뜻은 아닙니다. 1M은 천장이지 목표가 아닙니다.

▲ 목차로 돌아가기

캐시 TTL 5분 — 조용히 청구서를 불리는 함정

앞서 “1M 세션 유지가 세션 분리보다 저렴하다”는 것을 확인했습니다. 그런데 이 계산에는 중요한 전제 조건이 있습니다. 프롬프트 캐시는 마지막 요청 이후 5분이 지나면 만료된다는 점입니다. 이 시간 이후에 세션을 재개하면, 기존 세션이 유지되고 있어도 다음 요청은 전체 컨텍스트를 캐시 없이 새로 읽습니다.

🔢 직접 계산해 보면

Sonnet 4.6 기준 ($3/M 입력), 현재 세션이 200K 토큰에 달했을 때:

• 5분 이내 재개 시 추가 비용: 200K × $0.30/M (캐시 읽기 10%) = $0.06

• 5분 초과 후 재개 시 추가 비용: 200K × $3.00/M (전체 재처리) = $0.60

→ 자리를 10분 비웠다가 “감사합니다” 한 마디 보내면 $0.60 청구. 잠깐 쉰 것치고는 큰 비용입니다.

Opus 4.6으로 500K 토큰 세션을 운영하다가 1시간 자리를 비운 뒤 재개하면, 다음 한 마디 질문에 500K × $5/M = $2.50이 부과됩니다. 세션이 끊긴 것도 아니고 단지 5분 비활성 상태였을 뿐인데 말입니다. 이것은 기존 API 사용자들이 이미 알고 있는 Anthropic 프롬프트 캐싱의 TTL(Time-To-Live) 정책이지만, 1M 컨텍스트 시대에는 그 영향이 훨씬 커집니다.

실제 Reddit에서 한 사용자는 “600K 토큰 세션을 유지하다가 10분 잠깐 자리를 비웠더니 다음 질문에 예상치 못한 청구가 발생했다”고 보고했습니다. 이 함정은 절대 사소하지 않습니다. 장시간 코딩 세션 중 점심을 먹거나 회의를 다녀오는 상황이면 그때마다 전체 컨텍스트 재계산 비용이 발생합니다.

💡 이 함정을 피하는 실용적 방법

① 자리를 비울 때는 의도적으로 세션을 종료하고 새 세션에서 시작할 것

② 중단 시점에 /compact로 컨텍스트를 수동 압축해두면 재개 비용이 줄어듦

③ CLAUDE_AUTOCOMPACT_PCT_OVERRIDE 설정으로 자동 컴팩션 임계값을 조정 가능 (Claude Code 설정 파일 참고)

▲ 목차로 돌아가기

실무에서 1M 컨텍스트를 제대로 쓰는 방법

Anthropic의 공식 컨텍스트 엔지니어링 가이드는 흥미로운 역설을 담고 있습니다. 1M 창을 제공하는 회사가 직접 “목표는 원하는 결과를 낼 가능성을 극대화할 수 있는 가장 작은 고신호 토큰 집합을 찾는 것”이라고 권고합니다. 더 많이 넣는다고 좋아지는 것이 아니라는 겁니다. 공식 지침은 서브에이전트 분리, 적시(just-in-time) 컨텍스트 로딩, 그리고 적극적 컴팩션을 권장합니다.

그렇다면 1M 창은 언제 실질적으로 유용할까요? 한 사용자가 Reddit에서 실측 결과를 공유했습니다. 동일한 작업을 기존 방식(200K 세션 × 5회)과 1M 세션 × 1회로 비교했을 때의 차이입니다.

📊 실측 비교 (Reddit 사용자 공개 데이터, 2026.03)

200K 세션 × 5회: 세션당 시작 오버헤드 약 30~50K 토큰 (CLAUDE.md 재읽기 + 이전 컨텍스트 재설명). 총 낭비 토큰: 약 150~250K. 세션 간 맥락 손실 발생.

1M 세션 × 1회: 시작 오버헤드 약 30K(1회). 이전에 읽은 파일은 재읽지 않음. 실질 작업 토큰 약 970K.

단일 세션에서 처리한 결과: 전체 코드베이스 감사 47개 이슈 수정 + 5개 리팩토링 + 19개 DB 뷰 생성 + 약 20회 커밋. 동일 작업을 분리 세션으로 하면 8~10회 세션이 필요했을 규모입니다.

이것이 1M 컨텍스트가 진짜 빛나는 시나리오입니다. 수천 개 파일에 걸친 크로스파일 의존성 분석, 수백 페이지 계약서 교차 검토, 장시간 실행되는 에이전트 작업에서 중간에 잃어버리면 안 되는 맥락 유지. 반면 단순한 질답형 작업이나 관련 없는 연속 작업에는 1M를 꽉 채우는 것이 오히려 비효율입니다.

Claude Code 내부 계산으로 보면, 버퍼 약 33K를 제외하고 컴팩션이 83.5% 사용 시점에 발동합니다. 200K 창에서 실질 사용 가능 토큰은 약 134K였지만, 1M 창에서는 약 802K입니다. 숫자로는 5배지만 컴팩션 전 사용 가능한 연속 맥락의 양은 사실상 6배에 가깝습니다.

▲ 목차로 돌아가기

Q&A 5선

Q1. Claude Pro 플랜 사용자도 1M 컨텍스트를 쓸 수 있나요?
현재 1M 컨텍스트 GA는 Claude Code Max, Team, Enterprise 플랜과 API 사용자에게 적용됩니다. 일반 Claude.ai 웹·앱(Pro 플랜 포함)은 아직 적용되지 않았습니다. Anthropic 측은 “추후 확대될 수 있다”는 입장이지만 구체적인 일정은 미발표 상태입니다. (출처: Reddit r/ClaudeAI 공식 발표 스레드, 2026.03.13)
Q2. 기존 API 코드를 수정해야 1M 컨텍스트가 적용되나요?
아니요, 수정이 필요 없습니다. 기존 코드에 anthropic-beta: long-context-2025-01-01 헤더가 있었다면 이제 해당 헤더는 무시되며 자동으로 GA 기능이 활성화됩니다. 200K 이상 요청도 자동으로 플랫 요금이 적용됩니다. (출처: Anthropic 공식 블로그, 2026.03.13)
Q3. AWS Bedrock, Azure, Vertex AI에서도 동일 요금이 적용되나요?
네, GA 이후 Claude Platform Native, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Azure Foundry 모두에서 동일한 플랫 요금 구조로 1M 컨텍스트를 이용할 수 있습니다. 단, 각 클라우드 플랫폼별 서비스 요금이 추가될 수 있으니 각 플랫폼의 가격 페이지를 별도로 확인하세요.
Q4. Claude Code VSCode 익스텐션에서도 1M 컨텍스트가 됩니까?
GA 직후 기준으로는 VSCode 익스텐션 GUI에서 아직 일부 지연 업데이트가 보고되고 있습니다. 터미널 CLI에서는 즉시 확인됩니다. /model 명령어로 현재 컨텍스트 창 크기를 확인할 수 있습니다. 익스텐션이 아직 200K로 표시된다면 Claude Code를 최신 버전(v2.1.76 이상)으로 업데이트한 뒤 재시작을 권장합니다.
Q5. 자동 컴팩션을 완전히 끄거나 임계값을 바꿀 수 있나요?
가능합니다. .claude/settings.json 파일에서 "CLAUDE_AUTOCOMPACT_PCT_OVERRIDE": "숫자"로 임계값을 조정할 수 있습니다. 기본값은 약 83.5%이며, 낮은 값(예: 20)으로 설정하면 더 일찍 컴팩션이 발동해 컨텍스트 부담을 줄이고, 높은 값으로 설정하면 컴팩션 없이 더 긴 세션을 유지할 수 있습니다. 단, 너무 높게 설정하면 성능 저하 구간(“Dumb Zone”)에 빠질 수 있으니 주의가 필요합니다.

▲ 목차로 돌아가기

마치며

Claude Code 1M 컨텍스트 GA는 단순한 창 크기 업그레이드가 아닙니다. 가장 중요한 변화는 가격 구조의 전환입니다. 200K 초과분에 2배 요금을 부과하던 벽이 사라지면서, 긴 세션을 유지하는 것이 세션을 쪼개는 것보다 실제로 더 저렴해졌습니다.

그러나 두 가지 함정을 반드시 기억해야 합니다. 첫째, 컨텍스트를 가득 채울수록 성능이 저하됩니다. Opus 4.6도 1M 구간에서는 256K 대비 약 15~17% 성능이 떨어집니다. 1M은 여유 공간이지 목표치가 아닙니다. 둘째, 캐시 TTL 5분은 여전히 유효하며 장시간 자리를 비운 뒤 재개하면 예상치 못한 비용이 발생합니다.

경쟁 구도에서도 주목할 만한 변화가 생겼습니다. GPT-5.4와 Gemini 2.5 Pro는 여전히 200~272K 이상 구간에서 2배 요금을 부과합니다. Anthropic만이 플래그십(Opus 4.6)과 중간 모델(Sonnet 4.6) 모두에 1M 플랫 요금을 적용하는 유일한 회사입니다. 이 구조적 차이는 장기 코딩 세션과 대용량 문서 분석 워크플로우에서 실질적인 비용 우위로 이어집니다.

이 변화를 모르고 여전히 200K마다 세션을 끊거나 다른 모델로 장거리 컨텍스트 작업을 처리하고 있다면, 지금이 워크플로우를 재검토할 적기입니다.

📚 본 포스팅 참고 자료

  1. Anthropic 공식 블로그 — 1M Context GA 발표 (2026.03.13)
  2. Anthropic — Introducing Claude Opus 4.6 (2026.02.05)
  3. Anthropic — Claude 공식 요금 페이지
  4. InfoQ — Claude Opus 4.6 Adaptive Reasoning and Context Compaction 분석 (2026.03)
  5. paddo.dev — Context Stops Being Scarce (2026.03)

본 포스팅은 2026년 3월 13일 기준 Anthropic 공식 발표 내용을 바탕으로 작성되었습니다. Claude Code, Claude Platform, 관련 요금 및 기능은 이후 업데이트로 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 최신 정보는 claude.com 공식 채널을 통해 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기