Claude Code 1M context 요금, 직접 계산했습니다

magister

Published on

2026년 3월 25일

IT/AI

2026.03.13 GA 전환 기준 · Claude Code v2.1.75 이상

Claude Code 1M context 요금,
직접 계산했습니다

“추가 요금 없다”는 말은 절반만 맞습니다. Max·Team·Enterprise 구독자라면 맞고, API 직접 사용자라면 다릅니다. 그리고 두 경우 모두 5분이라는 함정이 있습니다.

78.3%

Opus 4.6 MRCR v2 정확도
(출처: Anthropic 공식 블로그)

15%↓

Compaction 발생 감소
(출처: Anthropic 공식 블로그)

5분

캐시 TTL — 이게 핵심 변수
(출처: Anthropic 공식 문서)

1M context GA, 정확히 무슨 의미인가요

2026년 3월 13일, Anthropic이 Claude Opus 4.6과 Sonnet 4.6의 1M 토큰 컨텍스트 윈도우를 정식 지원(GA, Generally Available)으로 전환했습니다. 이전까지는 베타 상태였고, API를 통해 사용하려면 요청 헤더에 anthropic-beta: context-1m-2025-08-07를 붙여야 했습니다.

GA 전환 이후 세 가지가 바뀌었습니다. 첫째, beta 헤더 없이도 200K를 초과하는 요청이 자동으로 처리됩니다. 기존 코드를 전혀 바꾸지 않아도 됩니다. 둘째, Opus 4.6과 Sonnet 4.6 기준으로 추가 가격 배율 없이 표준 단가가 전체 컨텍스트 범위에 적용됩니다. 셋째, 미디어 한도가 요청당 100개에서 600개(이미지 또는 PDF 페이지)로 6배 확대됐습니다.

결론부터 말씀드리면, GA 전환의 핵심은 “더 큰 공간을 예전보다 저렴하게 쓸 수 있다”는 것입니다. 단, 이 혜택이 누구에게 어떤 방식으로 적용되는지는 플랜마다 다릅니다.

💡 공식 발표문과 실제 요금 구조를 같이 놓고 보면, “무료”라는 표현이 플랜에 따라 다르게 읽힌다는 것을 알 수 있습니다. 이 글에서 그 차이를 숫자로 직접 확인합니다.

▲ 목차로 돌아가기

구독자와 API 사용자의 과금 구조가 다릅니다

Claude Code 구독 플랜 (Max / Team / Enterprise)

Max, Team, Enterprise 플랜 구독자는 Opus 4.6 기준으로 1M context가 구독 사용량 한도 내에서 기본 포함됩니다. 추가 토큰 과금이 별도로 발생하지 않습니다. Claude Code v2.1.75 이상으로 업데이트되어 있다면 별도 설정 없이 자동 적용됩니다. Pro 플랜은 1M context 사용 시 추가 사용량(extra usage)이 소요될 수 있습니다.

API 직접 사용자 (claude.ai API / Bedrock / Vertex AI)

GA 전환으로 추가 가격 배율이 Opus 4.6과 Sonnet 4.6에 한해 사라졌습니다. 900K 토큰 요청도 9K 토큰 요청과 동일한 단가가 적용됩니다. 아래 공식 요금 기준입니다.

모델	입력 (Input)	출력 (Output)	컨텍스트
Opus 4.6	$5 / MTok	$25 / MTok	1,000,000
Sonnet 4.6	$3 / MTok	$15 / MTok	1,000,000
출처: Anthropic 공식 요금 문서 (platform.claude.com/docs/en/about-claude/pricing), 2026.03.13 기준

단, Sonnet 4.5, Sonnet 4, 구형 모델은 GA 혜택이 적용되지 않습니다. 이 모델들은 여전히 200K 초과 시 구 beta 방식(헤더 + 프리미엄 요금)이 적용됩니다. 기존에 Sonnet 4.5로 API를 운영 중이라면 이 부분을 꼭 확인해야 합니다. Anthropic이 별도 안내를 내놓지 않은 부분입니다.

▲ 목차로 돌아가기

수치로 본 Compaction 비용 vs 1M 비용

많은 글들이 “1M context = 무조건 좋은 것”처럼 다룹니다. 막상 수치를 보면 다릅니다. 실제 실험 데이터를 직접 확인했습니다.

Compaction의 숨겨진 비용

기존 200K 모델에서 컨텍스트가 한계에 가까워지면 Claude Code는 자동으로 Compaction(압축)을 실행합니다. 대화 내용을 요약해 공간을 확보하는 방식입니다. 이 과정에서 두 가지 비용이 발생합니다. 하나는 요약 생성 자체에 드는 토큰 비용, 다른 하나는 정보 손실로 인한 재탐색 비용입니다. Anthropic 공식 발표에서 인용된 실사용 사례에 따르면, 1M context 도입 후 Compaction 이벤트가 15% 감소했습니다. (출처: Anthropic 공식 블로그, 2026.03.13) 대형 PDF와 데이터셋을 불러올 때 가장 중요한 작업에서 정밀도가 떨어지는 문제가 줄었다는 뜻입니다.

💡 Anthropic 발표 이전까지 대부분의 글은 Compaction 비용을 “사소한 불편” 정도로 다뤘습니다. 그런데 공식 발표문과 실사용자 데이터를 교차로 보면, 1M 도입의 핵심 효과는 “컨텍스트가 커졌다”가 아니라 “압축으로 인한 맥락 손실이 줄었다”에 있습니다.

1M 세션 1개 vs 200K 세션 4개 — 어느 쪽이 저렴한가요

직관적으로는 한 세션에서 모두 처리하는 것이 유리해 보이지 않습니다. 그런데 Prompt Caching 구조를 고려하면 실제로는 반대일 수 있습니다.

Claude Code는 매 요청마다 전체 대화 이력을 API에 전송합니다. 이미 처리된 토큰은 캐시 읽기(cache read)로 처리되어 약 10% 비용만 발생합니다. 반면 새 세션을 시작하면 이전 맥락을 다시 풀 비용으로 전송해야 합니다. 즉, 같은 900K 토큰 작업을 한 세션에서 처리하면 캐시 덕분에 비용이 절감되고, 여러 세션으로 나누면 같은 내용을 매번 풀 비용으로 재전송하는 구조입니다.

비교 항목	1M 단일 세션	200K × 4회 세션
반복 컨텍스트 비용	캐시 읽기 (약 10%)	매 세션 풀 비용
Compaction 발생	거의 없음	각 세션마다 발생
맥락 연속성	유지	세션 경계에서 손실
캐시 TTL 리스크	5분 비활동 시 만료	동일 적용

단, 이 비교는 같은 코드베이스나 문제를 지속적으로 다룰 때 유효합니다. 전혀 다른 작업을 새 세션에서 시작한다면, 이전 컨텍스트를 끌고 다니는 것이 오히려 비효율적입니다.

▲ 목차로 돌아가기

5분 캐시 TTL — 오래 쉬면 다시 돈이 나갑니다

“추가 요금이 없다”는 말은 세션이 활성 상태일 때 맞는 말입니다. Anthropic의 Prompt Caching은 비활성 5분 후 KV 캐시를 만료합니다. (출처: Anthropic 공식 문서) 5분이 지나고 다시 메시지를 보내면, 이전 컨텍스트 전체를 처음부터 다시 처리합니다.

실제로 얼마가 드는지 계산해보겠습니다. Sonnet 4.6 기준으로 현재 세션이 200K 토큰 상태일 때 10분 자리를 비웠다가 돌아온 경우입니다.

⚠️ 캐시 만료 후 재접속 비용 예시

캐시 활성 중: 200K × $0.30/MTok (캐시 읽기) = $0.06

캐시 만료 후: 200K × $3.00/MTok (풀 입력) = $0.60

같은 메시지를 보냈을 때 10배 차이가 납니다.

Opus 4.6 기준이라면 이 차이는 더 커집니다. 500K 토큰 세션에서 캐시가 만료되면 다음 메시지 하나에 $2.50 수준의 재캐싱 비용이 발생합니다. 그리고 이 비용은 세션 중에는 눈에 잘 보이지 않습니다. 월말 청구서에서 확인하게 됩니다.

💡 캐시 TTL이 5분이라는 것은 Anthropic 공식 문서에 나와 있지만, 실제 과금 영향을 계산한 글은 거의 없었습니다. 길게 작업하고 자리를 비우는 패턴이 잦다면, 이것이 1M context 도입 여부보다 더 중요한 비용 변수가 됩니다.

▲ 목차로 돌아가기

Sonnet 4.6은 1M context를 실제로 얼마나 쓸 수 있나요

이 부분이 가장 조심스러운 부분입니다. Anthropic은 1M context GA 발표에서 Opus 4.6의 MRCR v2 점수인 78.3%를 공개했습니다. (출처: Anthropic 공식 블로그, 2026.03.13) 그런데 Sonnet 4.6의 1M 수준 MRCR 점수는 아직 공개되지 않았습니다.

알려진 비교 수치를 정리하면 다음과 같습니다.

모델	MRCR v2 (1M 기준)	비고
Opus 4.6	78.3%	공식 수치 공개
Sonnet 4.6	미공개	GraphWalks BFS 68.4% (출처: aitoolranked.com)
Sonnet 4.5	18.5%	Anthropic Opus 4.6 발표 자료 인용
Gemini 3 Pro	26.3%	Anthropic 자체 측정

Sonnet 4.5 기준 18.5%라는 수치는 충격적입니다. 1M 토큰 컨텍스트를 풀로 쓸 경우 5개 중 4개를 제대로 못 찾아낸다는 뜻입니다. Sonnet 4.6이 개선됐을 가능성은 있지만, Anthropic이 공식 수치를 아직 내놓지 않았습니다. 긴 컨텍스트 작업에서는 Sonnet이 아닌 Opus를 쓰는 것이 현시점 기준 더 안전한 선택입니다.

▲ 목차로 돌아가기

실제로 1M이 유리한 상황, 그렇지 않은 상황

아래 기준은 공식 발표문, 실사용 데이터, Reddit 커뮤니티 보고를 교차 분석해서 정리한 것입니다.

✅ 1M context가 실제로 도움이 되는 상황

대규모 코드베이스 단일 분석: 수백 개 파일을 한 번에 불러와 아키텍처를 파악하거나, 전체 레포지토리에 걸친 일관성 있는 리팩터링을 진행할 때입니다. 단일 요청으로 처리되므로 context rot(정확도 저하)이 상대적으로 적습니다.

긴 디버깅 세션에서 맥락을 끊을 수 없는 경우: 에러 로그, 스택 트레이스, 수정 히스토리, 연관 파일이 쌓여가는 상황에서 Compaction이 발생하면 막 발견한 단서를 잃게 됩니다. Compaction 없이 전체 맥락을 유지하는 것이 이 경우 실질적인 이점입니다.

계약서·정책 문서 전체를 한 번에 분석할 때: PDF 600페이지까지 단일 요청이 가능해졌습니다. 일부를 잘라서 넣고 나머지를 추측하던 방식보다 훨씬 정확도가 높습니다.

❌ 1M context가 별로 의미 없는 상황

일반적인 일상 코딩 작업: 실제 측정 데이터에 따르면 대부분의 Claude Code 세션은 컴팩션 전까지 80~120K 토큰 수준에 머무릅니다. (출처: claudecodecamp.com, 2026.03.13) 200K에도 못 미치는 세션에 1M 모델을 선택해도 가격은 동일합니다.

자주 자리를 비우는 작업 패턴: 5분 이상 비활성이 되면 캐시가 만료되고 다음 메시지에 재캐싱 비용이 발생합니다. 업무 중 자주 컨텍스트를 바꾼다면 1M 세션을 유지하는 것이 오히려 비용 예측을 어렵게 만듭니다.

이미 완료된 작업에서 새로운 작업을 시작할 때: 이전 세션의 무관한 내용을 끌고 다니면 모델의 주의가 분산됩니다. 새 세션으로 깔끔하게 시작하는 것이 품질 면에서 더 낫습니다.

▲ 목차로 돌아가기

자주 묻는 질문

Claude Code Pro 플랜 사용자도 1M context를 무료로 쓸 수 있나요?
＋

Pro 플랜은 1M context 사용 시 추가 사용량(extra usage)이 소요될 수 있습니다. Max, Team, Enterprise 플랜과 달리 Pro 플랜은 구독 한도 내 자동 포함이 아닙니다. 정확한 플랜별 한도는 Anthropic 공식 요금 페이지(platform.claude.com/docs/en/about-claude/pricing)에서 확인하는 것이 맞습니다.

AWS Bedrock에서 Claude Opus 4.6 1M context를 쓰려면 어떻게 해야 하나요?
＋

AWS Bedrock에서 Opus 4.6의 1M context는 현재 “preview” 클래스로 제공됩니다. 처리량(Rate Limit)이 표준 클래스에 비해 낮을 수 있으며, 계정·리전별로 한도가 다릅니다. 대규모 1M context 요청이 필요한 프로덕션 환경이라면 Anthropic 직접 API 또는 Google Cloud Vertex AI 사용을 권장합니다.

1M context를 끄고 200K로 고정할 수 있나요?
＋

가능합니다. CLAUDE_CODE_DISABLE_1M_CONTEXT=1 환경변수를 설정하면 1M context가 비활성화됩니다. 기업 컴플라이언스 요구사항이 있거나 비용 예측 가능성을 확보해야 하는 경우에 활용할 수 있습니다. ~/.claude/settings.json에 영구 설정으로 추가하면 모든 세션에 적용됩니다.

Sonnet 4.6을 1M context로 써도 괜찮나요?
＋

Sonnet 4.6의 1M 수준 MRCR 점수는 아직 공개되지 않았습니다. 전작인 Sonnet 4.5의 경우 18.5%로, 1M 토큰 범위에서 정확도가 크게 떨어졌습니다. Sonnet 4.6이 개선됐을 가능성은 있지만, 긴 컨텍스트 작업에서 정확도가 중요하다면 Opus 4.6을 쓰는 것이 현재 더 안전합니다.

캐시 TTL 만료를 막을 방법이 있나요?
＋

현재 Anthropic 공식 문서에서 캐시 TTL을 사용자가 직접 연장하는 방법은 별도로 안내되지 않았습니다. 1시간 TTL 캐시 쓰기($10/MTok)를 활용하면 비활성 후에도 더 오래 캐시를 유지할 수 있습니다. 세션을 활성 상태로 유지하거나, 작업 종료 후 동일 컨텍스트가 필요한 경우 세션을 재시작하는 방식으로 비용을 통제하는 것이 현실적입니다.

▲ 목차로 돌아가기

마치며

Claude Code 1M context GA는 확실히 의미 있는 변화입니다. 단일 요청에 대규모 코드베이스를 통째로 넣을 수 있고, 압축 손실 없이 긴 세션을 유지할 수 있습니다. Compaction 빈도가 15% 줄었다는 공식 수치도 실제 개발 현장에서 체감되는 차이입니다.

그런데 솔직히 말하면, “무료로 1M 쓸 수 있다”는 문장 하나로 정리하기엔 복잡한 부분이 있습니다. Max·Team·Enterprise 구독자와 API 직접 사용자의 과금 구조가 다르고, 캐시 TTL 5분이라는 변수는 사용 패턴에 따라 예상치 못한 비용으로 돌아올 수 있습니다. Sonnet 4.6의 1M 정확도 수치가 아직 공개되지 않은 것도 불확실한 부분입니다.

결국 1M context가 도움이 되는 순간은 명확합니다. 대규모 코드베이스를 단번에 분석하거나, 긴 디버깅 세션에서 맥락을 끊을 수 없을 때입니다. 일상적인 코딩 작업이나 자주 자리를 비우는 패턴이라면, 200K 기준의 깔끔한 세션 관리가 오히려 비용과 품질 모두에서 낫습니다.

📚 본 포스팅 참고 자료

Anthropic 공식 블로그 — 1M Context GA 발표 (claude.com/blog/1m-context-ga)
Anthropic 공식 요금 문서 (platform.claude.com/docs/en/about-claude/pricing)
Anthropic Claude Code 공식 문서 (docs.anthropic.com/en/docs/claude-code)
AIToolRanked — Claude 1M Context GA 분석 (aitoolranked.com)
ClaudeCodeCamp — 1M Context 실험 측정 보고 (claudecodecamp.com)

본 포스팅은 2026년 3월 25일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있습니다. 정확한 최신 정보는 Anthropic 공식 문서를 참고하세요.

1M Context, 1M 컨텍스트 윈도우, AI 개발 도구, Anthropic 1M 토큰, claude code 1M

Claude Code 1M context 요금, 직접 계산했습니다

Claude Code 1M context 요금,
직접 계산했습니다

1M context GA, 정확히 무슨 의미인가요

구독자와 API 사용자의 과금 구조가 다릅니다

Claude Code 구독 플랜 (Max / Team / Enterprise)

API 직접 사용자 (claude.ai API / Bedrock / Vertex AI)