Claude Code 1M 컨텍스트, 쓸수록 더 비싸질 수 있습니다

Published on

in

Claude Code 1M 컨텍스트, 쓸수록 더 비싸질 수 있습니다

2026.03.13 GA 기준
Claude Code Opus 4.6 / Sonnet 4.6

Claude Code 1M 컨텍스트,
쓸수록 더 비싸질 수 있습니다

2026년 3월 13일, Anthropic이 Claude Code의 1M 토큰 컨텍스트 윈도우를 정식 출시(GA)했습니다. 베타 때 붙던 장문 컨텍스트 프리미엄이 사라졌고, 공식 발표에서는 “같은 요금으로 전체 1M 윈도우를 쓸 수 있다”고 했습니다. 그런데 실제로 쓰다 보면 기대했던 것과 전혀 다른 청구서를 받을 수 있는 구조가 있습니다. 공식 문서와 실측 데이터를 놓고 직접 계산해봤습니다.

$5→$5
Opus 4.6 입력(1M 토큰당)
베타·GA 표준 동일
$10→$5
200K 초과 구간
베타 프리미엄→GA 표준
5분
캐시 TTL — 이 넘으면
다음 호출 즉시 풀요금

GA 전환, 실제로 뭐가 바뀌었나

2026년 3월 13일 이전, 1M 컨텍스트 윈도우는 베타 상태였습니다. 베타 기간 동안 200K 토큰을 초과하는 요청에는 장문 컨텍스트 프리미엄이 붙었습니다. Opus 4.6 기준으로 200K 초과 입력 토큰에 1M 토큰당 $10이 적용됐습니다. 표준 요금인 $5의 2배였습니다. (출처: Anthropic 공식 API 요금 페이지, 베타 구간 기준)

GA 전환 이후, 이 프리미엄이 사라졌습니다. 이제 9K짜리 요청이든 900K짜리 요청이든 동일하게 Opus 4.6 기준 입력 1M 토큰당 $5가 적용됩니다. (출처: Anthropic 공식 블로그, 2026.03.13) 이 변화는 대규모 코드베이스를 매일 다루는 팀에게 실질적으로 의미 있는 비용 절감입니다.

추가로 달라진 것이 두 가지 더 있습니다. 한 요청당 처리 가능한 미디어(이미지·PDF)가 기존 100개에서 600개로 늘었고, 200K를 초과할 때 필요했던 베타 헤더가 더 이상 필요 없습니다. 기존에 베타 헤더를 코드에 넣어 두었다면 무시되므로 코드 수정 없이 전환됩니다.

💡 공식 발표문과 실제 API 요금 이력을 같이 보니 이런 차이가 보였습니다. 베타 요금($10/M)과 GA 요금($5/M) 사이 격차가 정확히 2배입니다. 대규모 세션에서 입력 토큰 100만 개를 매일 보내던 팀이라면, GA 전환만으로 일일 비용이 이론적으로 절반 가까이 줄어드는 계산이 됩니다.

Pro 플랜에서는 자동 적용이 안 됩니다

Anthropic 공식 블로그 발표를 읽으면 “Claude Code에서 1M 컨텍스트가 이제 기본”처럼 읽힙니다. 그런데 정확히는 Max, Team, Enterprise 플랜의 Opus 4.6 사용자에게만 자동으로 적용됩니다. (출처: Anthropic 공식 블로그, 2026.03.13)

월 $20짜리 Pro 플랜은 기본 모델이 Sonnet이고, 1M 컨텍스트가 자동으로 켜지지 않습니다. Pro 및 Sonnet 사용자는 /model 명령어로 직접 선택하거나 설정을 변경해야 합니다. (출처: Threads @boris_cherny 공식 확인, 2026.03.14) 이 차이를 모르고 Pro 플랜을 사용하면 여전히 200K 컨텍스트 기준으로 작동하고 있을 가능성이 높습니다.

플랜별 적용 현황을 정리하면 다음과 같습니다.

플랜 월 요금 1M 컨텍스트 자동 적용 비고
Pro $20 ❌ 수동 선택 기본 모델 Sonnet, /model로 변경
Max 5x $100 ✅ 자동 적용 Opus 4.6 기본 모델로 1M 활성화
Max 20x $200 ✅ 자동 적용 Opus 4.6, 20x 사용량
Team / Enterprise 맞춤 ✅ 자동 적용 Premium 시트 이상

5분 자리 비우면 캐시가 날아갑니다

이게 핵심입니다. 1M 컨텍스트가 저렴하게 유지되는 이유는 프롬프트 캐싱 덕분입니다. 한 번 처리한 토큰은 이후 같은 세션에서 캐시 히트(cache hit)로 처리되어 표준 입력 요금의 10%만 청구됩니다. Sonnet 4.6 기준으로 표준 입력이 $3/M 토큰인데, 캐시 히트는 $0.30/M입니다. (출처: Anthropic API 요금 공식 문서, 2026.03 기준)

문제는 캐시의 TTL(유효 기간)입니다. 5분 이상 세션이 비활성 상태가 되면 Anthropic 서버에서 KV 캐시를 증발시킵니다. 그 상태에서 다음 메시지를 보내면 쌓아둔 대화 히스토리 전체를 다시 풀요금으로 읽어야 합니다. (출처: Reddit r/ClaudeCode 스레드, 2026.03.13, Gemini 검증 코멘트 및 Anthropic 공식 캐싱 문서 교차 확인)

⚠️ 실측 계산 예시
Sonnet 4.6 세션에 200,000 토큰이 쌓인 상태에서 10분 자리를 비운 뒤 돌아와 메시지를 보내면:
• 캐시 히트(5분 내 재접속 시): $0.06 (200K × $0.30/M)
• 캐시 만료(5분 초과 시): $0.75 (200K × $3.75/M 재캐싱 비용)
단 한 번의 이탈로 12.5배 차이가 납니다. (계산 근거: Reddit r/ClaudeCode, paulcaplan 분석, 2026.03.13)

Opus 4.6으로 600K~900K 세션을 운영 중이라면 캐시 만료 시 한 번의 호출에서 $6.25까지 즉시 청구될 수 있습니다. API 종량제 사용자에게는 화장실 다녀온 사이에 발생하는 비용입니다. 이 구조는 공식 블로그에서 별도로 강조하지 않은 부분입니다.

💡 프롬프트 캐싱 공식 문서와 실사용자 리포트를 같이 놓고 보니 이런 패턴이 보였습니다. GA 이후 “비용이 줄었다”는 인식과 달리, 세션 관리 습관에 따라 오히려 캐시 만료로 추가 비용이 발생하는 케이스가 빈번합니다. 1M 컨텍스트의 경제성은 “계속 켜둘 때”를 전제로 성립합니다.

공식 수치로 직접 계산해봤습니다

시나리오 A: 연속 900K 세션 vs. 분할 450K×2 세션

Sonnet 4.6 API 종량제 기준으로 동일한 900K 토큰 작업을 두 가지 방식으로 진행했을 때 비용 차이를 계산합니다.

방식 입력 비용(표준) 캐시 재읽기 합계(추정)
연속 1회 세션 (900K, 캐시 유지) $2.70 $0.27 (10%) 약 $2.97
분할 2회 세션 (450K×2, 캐시 재설정) $5.40 $0.54 (각 세션) 약 $5.94

※ 위 계산은 Sonnet 4.6 표준 입력 $3/M, 캐시 히트 $0.30/M 적용. 출력 토큰 비용 별도. 세션 분할 시 컨텍스트 재전송 전제. 추정치.

같은 양의 작업을 한 세션에서 처리하는 것이 세션을 나누는 것보다 약 2배 저렴합니다. 이 수치의 실질적 의미는, 1M 컨텍스트의 경제성이 “긴 세션을 유지”하는 습관에서 나온다는 것입니다.

시나리오 B: Sonnet 4.5와 Sonnet 4.6의 장문 컨텍스트 요금 차이

모델 버전 선택도 비용에 직결됩니다. Sonnet 4.5는 여전히 200K 초과 요청에 장문 컨텍스트 프리미엄 2배 요금이 적용됩니다. 반면 Sonnet 4.6은 GA 이후 전 구간 표준 요금입니다. (출처: Anthropic API 요금 공식 문서, 2026.03 기준)

모델 300K 입력 요청 시 비용 비고
Sonnet 4.5 $1.80 (프리미엄 2배 구간) 200K 초과분 $6/M 적용
Sonnet 4.6 $0.90 (전 구간 표준) $3/M 균일 적용

※ 300K 입력 토큰 기준 추정. 실제 요금은 사용 환경에 따라 달라질 수 있음. (출처: Anthropic API 요금 공식 문서, 2026.03.13 GA 기준)

1M 컨텍스트가 실제로 유리한 경우

기대했던 것과 다른 함정이 있지만, 1M 컨텍스트가 분명히 이득인 상황도 있습니다. 공식 발표에 포함된 실사용 사례와 수치를 보면 패턴이 보입니다.

컴팩션(Compaction) 비용 제거: 이전에는 세션이 200K 토큰에 가까워지면 Claude Code가 자동으로 컴팩션을 실행했습니다. 이전 컨텍스트를 요약해 압축하는 과정 자체가 추가 토큰을 소비했고, 압축 과정에서 정보 손실이 일어났습니다. 한 엔터프라이즈 팀은 1M 전환 후 컴팩션 이벤트가 15% 감소했다고 보고했습니다. (출처: Anthropic 공식 블로그, 2026.03.13, Jon Bell CPO 코멘트) 이 수치는 대규모 코드베이스에서 지속적으로 작업할 때 디버깅 반복 횟수가 줄어든다는 의미입니다.

Opus 4.6의 장문 컨텍스트 정확도: Anthropic 공식 벤치마크에 따르면 Opus 4.6은 MRCR v2 (장문 컨텍스트 회상·추론 평가)에서 78.3%를 기록했습니다. 이는 동급 프론티어 모델 중 가장 높은 수치입니다. (출처: Anthropic 공식 블로그, 2026.03.13) 레거시 코드 전체를 한 번에 올려 리팩토링하거나, 400페이지 이상의 계약서를 한 세션에서 교차 참조해야 할 때 효과가 실측됩니다.

반대로 1M이 불필요한 경우: 작업이 자주 전환되는 일상적인 개발 업무라면 오히려 작은 컨텍스트를 자주 초기화하는 편이 낫습니다. 무관한 이전 작업의 컨텍스트를 계속 끌고 다니면 모델 집중도가 낮아지고 불필요한 토큰도 발생합니다. Anthropic 공식 비용 절감 가이드도 “관련 없는 작업 전환 시 /clear 사용“을 첫 번째 권장 사항으로 꼽습니다. (출처: code.claude.com/docs/en/costs)

💡 1M 컨텍스트를 쓸 때와 쓰지 말아야 할 때를 같이 놓고 보면 이런 기준이 생깁니다. “지금 이 작업이 나중 작업에 계속 필요한 맥락이냐?” — 그렇다면 세션을 이어가고, 그렇지 않다면 /clear가 더 경제적입니다.

비용을 줄이는 구체적인 설정법

캐시 TTL을 의식한 세션 관리

5분이라는 기준은 생각보다 짧습니다. 집중 작업 중에는 문제없지만, 회의 참석, 이메일 확인, 식사 등으로 자리를 비우면 거의 예외 없이 캐시가 만료됩니다. API 종량제 사용자라면 긴 세션을 시작하기 전에 자리를 뜰 계획이 있는지 먼저 파악하는 것이 실질적인 비용 관리 방법입니다. 5분을 넘기면 다음 메시지가 “캐시 재설정 비용”을 포함한 풀요금으로 청구됩니다.

확장 사고(Extended Thinking) 토큰 상한 설정

확장 사고가 기본으로 활성화된 상태에서는 최대 31,999 토큰의 사고 예산이 적용됩니다. 이 사고 토큰은 출력 토큰으로 과금됩니다. Opus 4.6 기준 출력 $25/M이므로, 사고만으로 요청당 최대 $0.80이 청구될 수 있습니다. 단순한 코드 리뷰나 파일 요약에는 불필요합니다. MAX_THINKING_TOKENS=8000을 설정하면 대부분의 일상 작업에 충분하면서 비용을 크게 줄일 수 있습니다. (출처: Anthropic 공식 비용 관리 문서)

서브에이전트 모델을 Sonnet 또는 Haiku로 분리

파일 검색, 테스트 실행, 로그 파싱 등 단순 반복 작업을 Opus로 처리하면 토큰당 비용이 가장 높은 구간에서 낭비가 발생합니다. 서브에이전트 설정에서 model: haiku를 지정하면 동일 작업이 Haiku 4.5 기준 $1/$5/M으로 처리됩니다. Opus 4.6($5/$25/M)과 비교하면 입력 기준 5분의 1 수준입니다. (출처: Anthropic 공식 비용 관리 문서, blog.laozhang.ai/ko/posts/claude-code-pricing-guide, 2026.03 기준)

Q&A

Pro 플랜 $20에서도 1M 컨텍스트를 쓸 수 있나요?

쓸 수는 있지만 자동 적용이 아닙니다. Pro 플랜에서는 /model 명령어로 모델을 직접 선택해야 합니다. Opus 4.6 기반의 1M 컨텍스트가 기본으로 켜지는 건 Max, Team, Enterprise 플랜 사용자에 한해서입니다. (출처: Anthropic 공식 블로그, 2026.03.13)

1M 컨텍스트를 쓰면 매 메시지마다 1M 토큰 비용이 나가나요?

아닙니다. 1M은 최대 윈도우 크기입니다. 실제 비용은 세션에 쌓인 누적 토큰 수와 캐시 히트 여부에 따라 결정됩니다. 캐시가 유효한 상태에서는 이전 토큰이 10% 요금으로 재처리됩니다. 캐시가 만료(5분 이상 비활성)되면 다음 요청에서 전체 누적 토큰이 표준 요금으로 다시 처리됩니다.

Sonnet 4.5를 그냥 쓰면 장문 컨텍스트에서 더 비싼가요?

맞습니다. Sonnet 4.5와 Sonnet 4 계열 모델은 200K 토큰을 초과하는 입력에 여전히 2배 프리미엄이 적용됩니다. 300K 입력 기준으로 Sonnet 4.5는 약 $1.80, Sonnet 4.6은 $0.90 수준으로 추정됩니다. 장문 컨텍스트를 자주 쓴다면 모델 버전 확인이 우선입니다. (출처: Anthropic API 요금 공식 문서, 2026.03 기준)

구독 플랜(Max 등) 사용자는 토큰 비용을 신경 쓰지 않아도 되나요?

구독 플랜은 정액제라 직접 토큰 요금이 청구되지는 않습니다. 하지만 사용량 한도가 있습니다. 한도에 도달하면 세션이 중단됩니다. 에이전트 팀을 사용하거나 매우 큰 세션을 여러 개 동시에 운영하면 한도 소진 속도가 빨라집니다. 공식 데이터에 따르면 평균 개발자는 하루 API 환산 약 $6 상당을 소비합니다. (출처: Anthropic 공식 비용 관리 문서 code.claude.com/docs/en/costs)

Amazon Bedrock이나 Google Vertex AI를 통해 써도 GA 요금이 적용되나요?

1M 컨텍스트 자체는 Amazon Bedrock, Google Vertex AI, Microsoft Foundry에서도 GA와 동시에 지원됩니다. 다만 서드파티 플랫폼은 자체 요금을 추가할 수 있습니다. 예를 들어 Bedrock과 Vertex AI는 리전 엔드포인트 사용 시 10% 추가 요금이 붙을 수 있습니다. 데이터 거주 요건이 있다면 이 비용을 계산에 넣어야 합니다. (출처: blog.laozhang.ai/ko/posts/claude-code-pricing-guide, 2026.03 기준)

마치며

결론부터 말씀드리면, Claude Code 1M 컨텍스트 GA는 분명히 좋은 변화입니다. 베타 때 붙던 2배 프리미엄이 사라졌고, 대규모 코드베이스 작업에서 컴팩션 없이 세션을 이어갈 수 있게 됐습니다. Opus 4.6의 78.3% MRCR v2 정확도는 실제 작업에서 의미 있는 수준입니다.

다만 이 좋은 변화를 제대로 누리려면 두 가지를 반드시 알고 시작해야 합니다. Pro 플랜에서는 수동으로 설정해야 한다는 것, 그리고 캐시 TTL이 5분이라는 것. 이 두 가지를 모른 채 쓰면 기대했던 것과 다른 비용이 나올 수 있습니다.

솔직히 말하면, Anthropic 공식 블로그 발표는 “저렴해졌다”는 인상을 주는 데 집중하고 있고 캐시 TTL이나 플랜별 적용 차이는 본문에서 강조하지 않습니다. 공식 발표문과 실사용 데이터를 교차로 읽어야 전체 그림이 보입니다. 이 포스팅이 그 간극을 메우는 데 도움이 됐으면 합니다.

본 포스팅 참고 자료

  1. Anthropic 공식 블로그 — “1M context is now generally available” (claude.com/blog/1m-context-ga, 2026.03.13)
  2. Anthropic API 요금 공식 문서 (platform.claude.com/docs/en/about-claude/pricing, 2026.03 기준)
  3. Anthropic Claude Code 공식 비용 관리 문서 (code.claude.com/docs/en/costs)
  4. Claude Code 요금 가이드 2026 (blog.laozhang.ai, 2026.03 기준)
  5. Reddit r/ClaudeCode — 1M 컨텍스트 비용 실측 스레드 (2026.03.13, paulcaplan)

본 포스팅은 2026년 3월 13일 GA 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 요금 수치는 Anthropic 공식 문서 기준이며, 실제 청구 금액은 사용 환경·플랜·캐시 상태에 따라 달라질 수 있습니다. 최신 요금은 반드시 Anthropic 공식 문서에서 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기