Claude Code 1M Context, 무조건 좋은 게 아닙니다

Published on

in

Claude Code 1M Context, 무조건 좋은 게 아닙니다

2026.03.13 GA 기준
Opus 4.6 / Sonnet 4.6
API 과금 절벽 주의

Claude Code 1M Context,
무조건 좋은 게 아닙니다

2026년 3월 13일, Anthropic이 Claude Code의 1M 토큰 컨텍스트를 정식 지원(GA)으로 전환했습니다. Max·Team·Enterprise 구독자는 추가 비용 없이 바로 쓸 수 있고, API 사용자도 별도 beta 헤더 없이 자동으로 동작합니다. 하지만 200K 토큰을 넘는 순간 요금 구조가 완전히 달라지고, Sonnet 4.6은 600K 이후 정확도가 급격히 떨어집니다. 결론부터 말씀드리면, 1M을 언제 써야 하고 언제 쓰면 안 되는지를 모르면 비용이 3배 이상 뛸 수 있습니다.

78.3%
Opus 4.6 MRCR v2
1M 구간 정확도
18.5%
Sonnet 4.5 동일 구간
— Sonnet 4.6 미공개
201K+
API 전체 토큰에
2× 프리미엄 적용 구간

1M Context GA — 실제로 달라진 것 3가지

3월 13일 Anthropic이 공식 블로그를 통해 발표한 내용은 세 줄로 요약됩니다. ① beta 헤더 불필요, ② 표준 단가 적용, ③ Rate Limit 통합. (출처: Anthropic 공식 블로그 claude.com/blog/1m-context-ga, 2026.03.13)

기존에는 200K를 넘는 요청을 보내려면 API 요청 헤더에 anthropic-beta: context-1m-2025-08-07를 붙여야 했고, 그 위에 프리미엄 요금까지 따로 붙었습니다. 지금은 헤더 없이도 자동으로 동작하고, Claude Code v2.1.75 이상을 쓰는 Max·Team·Enterprise 사용자라면 이미 Opus 4.6 세션에서 1M이 기본 적용 중입니다. 코드를 한 줄도 바꾸지 않아도 됩니다.

💡 공식 발표문과 이전 beta 방식을 나란히 놓고 보면 한 가지 차이가 두드러집니다. GA 이전에는 beta 헤더 유무에 따라 요금 체계가 달랐는데, 이제 헤더가 사라지면서 가격도 단일화됐습니다. 다만 이건 Opus 4.6, Sonnet 4.6에만 해당합니다. Sonnet 4.5, Sonnet 4는 여전히 구 방식(beta 헤더 + 프리미엄)이 그대로 적용됩니다.

Rate Limit도 바뀌었습니다. 전에는 1M 컨텍스트 요청에 별도의 낮은 Rate Limit이 붙어 있어서, 200K짜리 요청보다 처리 속도가 훨씬 느렸습니다. 이제 그 전용 제한이 제거되고, 모든 길이의 요청이 동일한 Rate Limit 풀을 씁니다. 단, 900K짜리 요청 하나가 토큰 기준 Rate Limit을 많이 소모한다는 물리적 사실 자체는 그대로입니다.

▲ 목차로 돌아가기

200K를 넘으면 요금이 2배가 아닌 이유

많은 분들이 “200K 초과분에만 2배가 붙겠지”라고 생각하는데, 공식 문서를 보면 그게 아닙니다. 200K를 1토큰이라도 넘으면, 해당 요청의 전체 입력 토큰에 프리미엄 단가가 적용됩니다. (출처: platform.claude.com/docs/en/about-claude/pricing)

⚠️ 실제 계산 — 요금 절벽의 현실
요청 규모 (Opus 4.6 입력) 비용 단가
199,000 토큰 $0.995 $5/MTok
201,000 토큰 $2.010 $10/MTok
추가 2K 토큰의 실질 단가 +$1.015 $507/MTok

출처: claudecodecamp.com 실측 데이터 (2026.03.13) / 수치는 Anthropic 공식 가격 기준 역산. 실제 비용은 캐시 적용 여부에 따라 달라집니다.

2,000 토큰을 더 보내는 대가로 $1.015을 더 낸다는 뜻입니다. 실질 단가로 환산하면 토큰당 $507/MTok, 기준 단가의 100배입니다. 세션이 긴 날 한두 번 넘으면 그날 청구서가 예상과 완전히 달라집니다.

캐시도 마찬가지입니다. 200K를 넘는 세션에서는 캐시 읽기 단가도 2배로 뜁니다. Opus 4.6 기준 평상시 캐시 읽기는 $0.50/MTok인데, 200K 초과 구간에서는 $1.00/MTok으로 올라갑니다. 90% 할인은 여전히 적용되지만, 기준 자체가 높아지는 방식입니다.

💡 Anthropic 공식 블로그에서 “표준 단가 적용”이라고 발표했는데, 이게 전체 범위에 단일 단가라는 뜻이 아닙니다. “프리미엄 배율이 없어졌다”는 발표는 beaker 모델 시절 별도 surcharge가 제거됐다는 이야기입니다. 200K 이상에 적용되던 기존 long context 구간 요금은 그대로입니다. 이 두 가지를 헷갈리지 않는 게 중요합니다.

Max·Team·Enterprise 구독자는 이 과금 절벽이 없습니다. 구독 플랜 사용량 한도 안에서 1M 컨텍스트를 추가 비용 없이 씁니다. 단, 사용량 한도를 초과하면 초과분에 대해 추가 사용량(extra usage) 요금이 발생합니다. (출처: support.claude.com)

▲ 목차로 돌아가기

Sonnet으로 1M 쓰면 안 되는 이유

1M Context 지원 모델은 Opus 4.6과 Sonnet 4.6 둘 다입니다. 하지만 같은 기능이라고 같은 품질을 기대하면 안 됩니다. Anthropic이 공개한 벤치마크를 보면 둘의 격차가 꽤 큽니다.

모델 256K 구간 정확도 1M 구간 정확도
(MRCR v2)
Opus 4.6 93% 78.3%
Gemini 3.1 Pro 측정값 없음 26.3%
Sonnet 4.5 (비교용) 정상 18.5%
Sonnet 4.6 정상 미공개

출처: Anthropic 공식 1M Context GA 블로그 (2026.03.13), claudecodecamp.com 실측 데이터. Sonnet 4.6의 1M MRCR 점수는 Anthropic이 공식 답변을 내놓지 않은 부분입니다.

Sonnet 4.5가 1M 구간에서 18.5%를 기록했다는 건, 100만 토큰 안에 숨겨진 정보 8개 중 약 1.5개만 제대로 찾아낸다는 의미입니다. Sonnet 4.6이 개선됐을 가능성은 있지만, 아직 공식 수치가 없습니다. claudecodecamp.com이 직접 측정한 결과를 보면, Sonnet 4.6도 400K 이상에서는 정확도가 불안정합니다. 프리미엄 요금을 내면서 정보를 제대로 못 찾는 상황이 될 수 있습니다.

Anthropic이 공식 권장하는 접근은 이렇습니다. 일반 코딩과 빠른 작업에는 Sonnet 4.6을 쓰고, 대규모 코드베이스 분석·복잡한 아키텍처 판단·다중 에이전트 조율이 필요한 상황에서만 Opus 4.6으로 전환하는 방식입니다. 1M을 써야 하는 상황이라면 Sonnet이 아니라 Opus를 선택해야 합니다. (출처: Anthropic 모델 선택 가이드, code.claude.com/docs/ko/model-config)

▲ 목차로 돌아가기

캐시 만료가 더 무서운 이유

Claude Code가 대용량 컨텍스트를 빠르게 처리할 수 있는 이유는 Prompt Caching 덕분입니다. 캐시가 살아있으면 500K 토큰 세션에서도 첫 응답이 3~4초 안에 옵니다. 하지만 캐시가 만료되면 이야기가 완전히 달라집니다.

💡 캐시 TTL은 기본 5분, 1시간짜리는 따로 설정해야 합니다. 긴 컨텍스트 세션을 쓰다가 6분만 자리를 비워도 캐시가 만료되고, 다음 메시지부터 콜드 스타트 패널티를 받습니다.

claudecodecamp.com이 실측한 지연 시간 데이터입니다. (2026.03.13 기준, 캐시 상태별)

컨텍스트 크기 캐시 히트 TTFT 콜드 스타트 TTFT
50K 토큰 약 0.8초 약 2초
200K 토큰 약 1.6초 약 9초
500K 토큰 약 3.5초 약 35초
1M 토큰 (추정) 약 5~7초 약 60~90초 추정

출처: claudecodecamp.com 실측 데이터 (2026.03.13). 1M 콜드 스타트 수치는 500K 실측값 기반 역산 추정치입니다.

500K 세션에서 커피 한 잔 마시고 돌아와 메시지를 보내면, 응답이 시작되기까지 35초를 기다려야 합니다. 1M이라면 1분 이상입니다. 이 시간 동안 Claude는 전체 컨텍스트를 처음부터 다시 읽고 있습니다. 자리를 자주 비우는 스타일이라면 큰 컨텍스트가 오히려 생산성을 낮출 수 있습니다.

캐시 비용도 놓치기 쉽습니다. 200K 이상 구간에서는 캐시 쓰기 단가도 올라갑니다. Opus 4.6 기준 표준 캐시 쓰기는 $6.25/MTok이지만, 200K 초과 구간에서는 $12.50/MTok으로 2배가 됩니다. 1시간 TTL 캐시를 쓰면 $20/MTok까지 올라갑니다. 긴 컨텍스트를 자주 재사용하는 경우에만 캐시 투자가 의미 있습니다. (출처: platform.claude.com/docs/en/about-claude/pricing)

▲ 목차로 돌아가기

진짜 효과 보는 3가지 상황

위의 제약을 알고도 1M을 쓰는 게 유리한 상황이 분명히 있습니다. Anthropic이 실제 사용 사례로 꼽은 것과 외부 실측 데이터를 교차해보면 세 가지가 공통적으로 등장합니다.

상황 1

대규모 레거시 코드베이스 분석

수십만 줄 규모의 코드를 한 번에 컨텍스트에 올리고 분석하는 단발성 요청입니다. 대화를 여러 번 주고받는 것이 아니라, 파일을 통째로 넣고 한 번에 답변을 받는 방식이라 컨텍스트 손상(context rot)이 거의 없습니다. Anthropic에 따르면 기존에는 손실 요약이나 청킹이 필요했던 작업을 이제 단일 패스로 처리할 수 있습니다.

상황 2

수백 페이지 계약서·법률 문서 교차 검토

400페이지짜리 계약서를 요약 없이 전체를 올려두고, 특정 조항을 교차 검증하는 작업입니다. 법률 도구 Eve 사례에서 “전체 케이스 파일을 넘나들며 훨씬 높은 품질의 답변을 제공한다”는 ML 엔지니어 Mauricio Wulfovich의 실사용 후기가 Anthropic 공식 블로그에 실려 있습니다.

상황 3

Compaction 없이 완주해야 하는 장기 디버깅

에러 로그, 스택 트레이스, 연관 파일, 이전 수정 시도가 모두 맥락에 남아있어야 하는 버그 추적 작업입니다. 소프트웨어 엔지니어 Anton Biryukov는 “Datadog·Braintrust·소스코드를 넘나들며 재검색하고 엣지 케이스를 모아 수정을 제안하는 모든 과정을 하나의 창 안에서 처리한다”고 설명했습니다. (출처: Anthropic 공식 1M Context GA 블로그)

💡 세 상황의 공통점이 있습니다. 모두 대화 횟수가 많지 않고, 입력 규모가 크며, 한 번 분석하면 끝나는 작업입니다. 여러 번 메시지를 주고받으며 코딩하는 일반적인 Claude Code 세션에서는 대부분의 작업이 200K 이내에서 완결됩니다. 굳이 1M 모델을 선택하지 않아도 됩니다.

▲ 목차로 돌아가기

플랜별 실제 사용 조건 정리

플랜마다 1M Context의 사용 조건이 다릅니다. 특히 Pro 플랜 사용자가 1M을 쓰면 추가 사용량이 차감된다는 점을 놓치기 쉽습니다.

플랜 Opus 4.6 1M Sonnet 4.6 1M
Max / Team Premium 기본 포함, 추가 비용 없음 추가 사용량 필요
Enterprise 기본 포함, 추가 비용 없음 추가 사용량 필요
Pro 추가 사용량 필요 추가 사용량 필요
API 직접 사용 표준 단가 (200K 이하) / 2× 단가 (200K 초과) 동일

출처: code.claude.com/docs/ko/model-config (2026.03.13 기준). 플랜 정책은 변경될 수 있으므로 최신 공식 문서를 확인하세요.

Claude Code에서 모델을 전환하는 명령어는 아래와 같습니다. /model opus[1m]으로 입력하면 Opus 4.6 1M 모델로 전환됩니다. Sonnet을 1M으로 쓰고 싶다면 /model sonnet[1m]이고, 현재 설정을 확인하려면 /model만 입력하면 됩니다.

1M을 아예 비활성화하고 싶다면 환경변수 CLAUDE_CODE_DISABLE_1M_CONTEXT=1을 설정하면 됩니다. 기업 컴플라이언스 환경이나 API 비용을 예측 가능하게 유지해야 하는 상황에서 유용합니다. 이 환경변수를 프로젝트 단위로만 적용하려면 .claude/settings.local.json에 넣으면 됩니다. (출처: code.claude.com/docs/ko/model-config)

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q. Claude Code Pro 플랜인데, 1M을 쓰면 요금이 추가로 청구되나요?
Pro 플랜에서 Opus 4.6 1M을 쓰면 플랜 사용량 한도 안에서는 추가 비용이 없지만, 1M 컨텍스트 사용 시 추가 사용량(extra usage)이 차감됩니다. 즉, 같은 시간에 더 많은 사용량 크레딧이 소모됩니다. Max·Team·Enterprise 플랜에서는 Opus 4.6 1M이 기본 포함돼 있어 추가 사용량 차감이 없습니다. (출처: code.claude.com/docs/ko/model-config)
Q. Sonnet 4.5로 1M을 쓰려면 beta 헤더가 여전히 필요한가요?
네, 그렇습니다. 이번 GA 업데이트는 Opus 4.6과 Sonnet 4.6에만 해당합니다. Sonnet 4.5·Sonnet 4 등 구 모델은 여전히 anthropic-beta: context-1m-2025-08-07 헤더를 붙여야 하고, 200K 초과 시 프리미엄 요금도 그대로 적용됩니다. 구 모델을 쓰는 API 통합에서 별도 조치 없이 업그레이드된다는 가정은 틀렸습니다.
Q. 1M 모델을 선택하면 무조건 프리미엄 요금이 붙나요?
아닙니다. /model opus[1m]을 선택해도 실제 컨텍스트가 200K 토큰 미만이면 표준 단가가 적용됩니다. 1M 모델은 단지 상한선이 1M으로 늘어난 것이고, 실제 사용한 토큰만큼만 청구됩니다. API에서는 200K를 넘는 순간 전체 입력에 프리미엄이 붙는 구조입니다. Max·Team 구독자는 이 과금 절벽이 없습니다.
Q. AWS Bedrock에서도 1M이 동일하게 동작하나요?
Bedrock에서는 Opus 4.6의 1M Context가 현재 “preview” 클래스로 제공됩니다. 처리량이 Anthropic 직접 API 대비 낮고, 계정·리전별로 다릅니다. 대규모 1M 요청을 프로덕션에서 안정적으로 처리해야 한다면 Google Cloud Vertex AI(Opus 4.6, us-east5 기준 200 QPM, 2M input TPM)가 현재 처리량이 더 넉넉합니다. (출처: 갓대희 티스토리 실측 분석, 2026.03.16)
Q. Compaction을 일부러 더 일찍 발생시키는 게 나은 경우도 있나요?
상황에 따라 그렇습니다. 1M 컨텍스트가 넓어졌다고 무조건 오래 유지하는 게 좋은 건 아닙니다. 세션 초반에 탐색 과정에서 남긴 잘못된 가설이나 폐기된 시도가 컨텍스트 안에 남아있으면, 모델이 그 정보에 주의를 분산시킵니다. 환경변수 CLAUDE_AUTOCOMPACT_PCT_OVERRIDE를 70으로 설정하면 1M 모델 기준 700K에서 Compaction이 발생합니다. 작업 성격에 따라 수동으로 임계값을 낮추는 게 품질에 유리할 수 있습니다. (출처: code.claude.com/docs/ko/model-config)

▲ 목차로 돌아가기

마치며 — 1M, 크다고 무조건 좋은 게 아닙니다

솔직히 말하면, Claude Code 1M Context GA 소식을 처음 봤을 때 “이제 Compaction 걱정 없이 쓴다”는 생각이 먼저 들었습니다. 하지만 공식 문서와 실측 데이터를 같이 놓고 보니 그게 다가 아니더라고요.

가장 핵심적으로 정리하면 이렇습니다. Max·Team·Enterprise 구독자라면 1M을 무료로 쓸 수 있고, 대규모 단발성 분석에서는 확실히 게임이 달라집니다. 하지만 API로 직접 쓰는 개발자라면 200K를 넘는 순간 요금 절벽이 생깁니다. Sonnet 4.6으로 1M을 쓰는 건 공식 MRCR 수치가 나오기 전까지는 조심하는 게 낫고, 캐시가 만료된 채로 긴 세션을 재개하면 최대 1분 넘게 응답 대기를 해야 합니다.

일반적인 코딩 세션 대부분은 여전히 200K 이내에서 끝납니다. 대규모 레거시 분석, 긴 법률 문서 검토, Compaction 없이 완주해야 하는 장기 디버깅. 이 세 가지 상황이 아니라면 굳이 1M 모델을 선택할 이유가 많지 않습니다. 작은 컨텍스트에서 집중도 높은 Sonnet이 1M 구간의 Opus보다 나은 결과를 내는 경우도 많습니다.

기능은 분명히 좋아졌습니다. 쓰기 전에 언제 써야 하고 언제 쓰면 안 되는지를 먼저 파악하는 것, 그게 이번 업데이트에서 가장 중요한 부분입니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료
  1. Anthropic 공식 블로그 — 1M Context GA 발표 (2026.03.13): claude.com/blog/1m-context-ga
  2. Claude Code 공식 모델 설정 문서 (한국어): code.claude.com/docs/ko/model-config
  3. Claude Code Camp 실측 데이터 — 요금 절벽·지연 시간·Needle 테스트 (2026.03.13): claudecodecamp.com
  4. Martin Alderson — Why Claude’s 1M context length is a big deal (2026.03.15): martinalderson.com
  5. 갓대희의 작은공간 — Claude Code 1M Context 완전 가이드 (2026.03.16): goddaehee.tistory.com/547

본 포스팅은 2026년 3월 23일 기준으로 작성됐습니다. Anthropic의 서비스 정책·요금·UI·기능은 업데이트로 언제든지 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 최신 정보는 공식 문서(platform.claude.com, code.claude.com)에서 직접 확인해 주세요. 본 포스팅의 수치는 공식 자료 및 외부 실측 데이터를 기반으로 작성됐으며, 개인 환경에 따라 실제 결과가 다를 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기