Claude Code 1M 컨텍스트, 오래 쓸수록 더 싸진다고요?

Published on

in

Claude Code 1M 컨텍스트, 오래 쓸수록 더 싸진다고요?

2026.03.13 기준
Claude Code / Opus 4.6 · Sonnet 4.6
IT/AI

Claude Code 1M 컨텍스트, 오래 쓸수록 더 싸진다고요?

결론부터 말씀드리면, 무조건 더 싸지는 게 아닙니다. 200K 토큰을 넘는 순간 전체 토큰에 2배 요금이 붙습니다. Anthropic 공식 블로그와 실측 데이터를 직접 확인했습니다.

1M
토큰 컨텍스트 창
약 75만 단어 분량
78.3%
MRCR v2 점수
프런티어 모델 최고
15%
컴팩션 이벤트 감소
(Jon Bell, CPO 실측)

1M 컨텍스트 정식 출시, 실제로 달라진 것

2026년 3월 13일, Anthropic이 Claude Code 1M 컨텍스트 창을 정식으로 열었습니다. Opus 4.6과 Sonnet 4.6 모두 해당됩니다. 이전까지 200K 토큰을 넘어가면 Claude Code가 자동으로 컴팩션(compaction)을 실행했는데, 앞부분 대화를 요약하고 맥락 일부를 날리는 방식이었습니다. 그 과정에서 중요한 힌트가 사라져 같은 디버깅을 반복하는 일이 잦았습니다.

이번 정식 출시에서 바뀐 핵심은 세 가지입니다. 첫째, 200K 초과 구간에 붙던 장거리 컨텍스트 프리미엄이 없어졌습니다. 둘째, 한 번에 올릴 수 있는 이미지와 PDF 페이지 수가 100장에서 600장으로 늘었습니다. 셋째, 베타 헤더 없이도 200K 이상 요청이 자동으로 처리됩니다. (출처: Anthropic 공식 블로그, 2026.03.13)

Claude Code Max·Team·Enterprise 플랜에서 Opus 4.6을 선택하면 1M 컨텍스트가 자동 적용됩니다. 별도 설정 없이 세션이 길어져도 컴팩션 없이 대화가 유지됩니다. 실제로 Jon Bell(CPO)은 “컴팩션 이벤트가 15% 감소했다”고 발표했는데, 이는 긴 세션에서 잃어버린 맥락을 다시 설명하는 시간이 그만큼 줄었다는 뜻입니다.

💡 공식 발표문과 실제 청구 구조를 같이 놓고 보니 이런 차이가 보였습니다.

“추가 요금 없음”이라는 표현은 장거리 컨텍스트 프리미엄이 사라졌다는 뜻이지, 200K 초과 구간 자체의 요금 구조가 없어졌다는 의미가 아닙니다. 아래 섹션 2에서 구체적으로 살펴봅니다.

▲ 목차로 돌아가기

200K 초과 순간 요금이 달라지는 이유

많은 분이 “이제 1M 컨텍스트가 추가 요금 없이 됐다”고 이해하셨을 텐데, 공식 pricing 페이지를 직접 확인하면 얘기가 달라집니다. 200K 토큰을 초과하는 순간 전체 토큰에 2배 입력 단가가 적용됩니다. “초과분”만이 아닙니다.

모델 기본 입력 (200K 이하) 장거리 입력 (200K 초과) 배수
Opus 4.6 $5.00/1M 토큰 $10.00/1M 토큰
Opus 4.6 출력 $25.00/1M 토큰 $37.50/1M 토큰 1.5×
Sonnet 4.6 $3.00/1M 토큰 $6.00/1M 토큰
Sonnet 4.6 출력 $15.00/1M 토큰 $22.50/1M 토큰 1.5×

(출처: Anthropic Pricing 공식 문서, 2026.03.13 기준)

실측값으로 보면 더 선명합니다. 199,000 토큰 요청은 Opus 기준 $0.995가 나옵니다. 반면 201,000 토큰 요청은 $2.010으로 껑충 뜁니다. 딱 2,000 토큰 차이에 $1.015를 더 내는 겁니다. (출처: claudecodecamp.com 실측, 2026.03.13)

⚠️ 계산해 보면 이렇습니다

200K를 단 1토큰이라도 넘으면, 그 직전까지의 199K 토큰 전부가 높은 단가로 재계산됩니다. 특히 캐시 읽기 단가도 Opus 기준 $0.50/M에서 $1.00/M으로 두 배가 됩니다. “캐시니까 저렴하다”는 논리가 200K 넘는 순간부터는 절반만 맞는 말입니다.

이런 구조가 생긴 이유가 있습니다. 1M 컨텍스트 세션 하나를 유지하려면 수백 GB의 GPU 메모리가 세션에 단독으로 묶입니다. 다른 사용자와 공유가 안 됩니다. Anthropic이 그 인프라 비용을 요금에 반영한 것입니다. Anthropic이 공식 답변을 내놓지 않은 부분입니다만, 장비 사용 구조상 이렇게 볼 수 있습니다.

▲ 목차로 돌아가기

5분 자리 비워도 캐시가 사라집니다

프롬프트 캐싱이 1M 컨텍스트와 맞물려 있어서, 이 부분을 놓치면 예상치 못한 비용이 생깁니다. Anthropic의 프롬프트 캐싱은 TTL(Time to Live)이 5분입니다. 마지막 요청 이후 5분이 지나면 캐시가 사라지고, 다음 요청은 전체 컨텍스트를 처음부터 다시 읽습니다.

잠깐 자리를 비웠을 때 실제 비용 차이

Sonnet 4.6으로 200K 토큰 세션을 유지 중일 때, 요청 4분 후 다음 메시지를 보내면 캐시 읽기 단가($0.30/M)가 적용돼 약 $0.06가 나옵니다. 그런데 10분 후에 보내면 캐시가 만료되어 전체를 다시 읽어야 하므로 $0.75가 청구됩니다. 같은 메시지, 6분 차이에 12.5배 비용 차이가 납니다. (출처: Claude Code Camp 실측, 2026.03.13)

💡 실제 사용 흐름을 따라가 보니 이런 패턴이 보였습니다.

개발자가 코드 리뷰 중 커피를 가져오거나 미팅에 잠깐 들어갔다 나오면, 500K 컨텍스트 세션의 첫 메시지가 30초 이상 걸리는 콜드 스타트를 맞습니다. 1M까지 가면 60~90초 추정입니다. 자주 자리를 비우는 작업 방식이라면 1M이 오히려 더 답답할 수 있습니다.

“잃어버린 중간” 현상도 있습니다

모델은 컨텍스트 창 안에서 앞쪽과 뒤쪽에 집중하고, 중간은 상대적으로 흘려보냅니다. 연구자들이 “lost in the middle”이라고 부르는 현상입니다. 1M 컨텍스트를 절반쯤 채웠을 때 넣어둔 핵심 지시사항이 무시되는 사례가 있습니다. 중요한 기준 정보는 컨텍스트의 맨 앞이나 맨 뒤에 두는 게 실제로 효과가 있습니다.

▲ 목차로 돌아가기

Gemini가 먼저 1M을 냈는데 지금 와서 의미 있는 이유

Google은 2024년부터 Gemini 1.5 Pro에 1M 컨텍스트를 제공했고, 일부 모델은 2M까지 지원합니다. 단순히 크기만 보면 Claude가 후발주자처럼 보입니다. 그런데 “창의 크기”와 “그 창을 실제로 쓸 수 있는 능력”은 다른 문제입니다.

모델 최대 컨텍스트 MRCR v2 점수 (1M)
Claude Opus 4.6 1M 토큰 76.0% → 공식 발표 78.3%
Gemini 3 Pro 1M 토큰 26.3%
Claude Sonnet 4.5 1M 토큰 18.5%

(출처: Anthropic 공식 발표 MRCR v2 기준 · Google 모델 평가 카드 2025년 11월, rdworldonline.com 정리)

Gemini 3 Pro는 128K 토큰에서 77% 점수를 받지만, 실제 1M 구간에서는 26.3%로 뚝 떨어집니다. 반면 Claude Opus 4.6은 1M 구간에서 78.3%를 기록했습니다. 수치만 보면 세 배 차이가 납니다. 단, 78.3%는 Anthropic 자체 측정이고 독립 검증은 아직 진행 중입니다. Gemini 3 Pro 수치는 Google이 자체 공개한 모델 평가 카드 기준입니다.

실사용에서도 이 차이가 나왔습니다. Reddit에는 2026년 1월 기준으로 Gemini 3 Pro가 전체 컨텍스트의 15~20%만 채워도 앞부분 내용을 잊어버린다는 불만이 올라왔습니다. 같은 문제가 Claude 4.6에서는 400K까지는 사실상 나타나지 않습니다. (출처: rdworldonline.com, 2026.02.05)

💡 MRCR v2는 1M 토큰 안에 8개의 정보를 숨겨두고 모두 찾는 테스트입니다. Opus 4.6이 78.3%라는 건 8개 중 약 6.3개를 정확히 찾는다는 뜻입니다. Gemini 3 Pro는 약 2.1개 수준입니다.

▲ 목차로 돌아가기

1M이 진짜 필요한 상황과 그렇지 않은 상황

대부분의 Claude Code 일상 세션은 80~120K 토큰에서 마무리됩니다. 200K는커녕 1M에 가까이 가지도 않습니다. 그런데도 1M 모델을 선택해야 할 이유가 있는 상황이 있고, 오히려 쓰지 말아야 할 상황도 있습니다.

이럴 때는 1M이 맞습니다

대용량 코드베이스를 한 번에 읽히는 경우가 대표적입니다. 마이크로서비스 여러 개를 통틀어 버그를 찾거나, 레거시 코드 전체를 리팩토링할 때 파일을 쪼개서 넣으면 파일 간 의존성이 보이지 않습니다. 한 번에 넣고 분석하는 단발성 요청에서 1M이 제 역할을 합니다.

긴 계약서나 규정 문서를 통째로 올려야 하는 경우도 있습니다. 300페이지짜리 계약서에서 특정 조항의 위치를 찾거나, 수백 건의 논문에서 패턴을 뽑아낼 때 나눠서 넣으면 중간에 정보가 빠집니다. 이 경우에는 600페이지(이미지 포함) 한도도 함께 활용할 수 있습니다.

디버깅 컨텍스트가 절대로 유실되면 안 되는 경우도 해당합니다. 스택 트레이스, 재현 단계, 실패한 시도를 하나의 세션에 전부 유지해야 할 때, 컴팩션이 작동하면 이미 확인했던 경로를 다시 탐색하는 비용이 생깁니다.

이럴 때는 오히려 피하는 게 낫습니다

일상적인 코딩 세션이라면 200K를 넘지도 않으니 굳이 1M 모델을 고를 필요가 없습니다. 요금 구조는 200K 이하 구간에서 동일합니다. Sonnet 4.5로 1M 컨텍스트를 쓰는 것도 비효율적입니다. MRCR v2 점수가 18.5%인데, 1M 구간 프리미엄 요금까지 내면서 제대로 활용하기 어렵습니다. 긴 컨텍스트가 필요하면 반드시 Opus 4.6을 써야 합니다. 자주 자리를 비우는 작업에서도 캐시 TTL 5분 문제가 반복 발생하므로 500K 이상 컨텍스트에서는 오히려 불편합니다.

▲ 목차로 돌아가기

Claude Code에서 실제로 켜는 방법

Claude Code 터미널에서 /model 명령어 뒤에 [1m]을 붙이면 됩니다. Max·Team·Enterprise 플랜에서 Opus 4.6을 선택한 경우 자동으로 활성화됩니다.

/model opus[1m]
/model sonnet[1m]
/model claude-opus-4-6[1m]
/model claude-sonnet-4-6[1m]

1M 모델을 선택해도 컨텍스트가 200K 이하인 동안에는 기본 단가 그대로입니다. 선택 자체에 비용이 붙지 않으니, “필요할 때를 위해 미리 켜둔다”는 접근이 맞습니다. 계정이 1M을 지원하지 않으면 모델 선택 목록에 해당 옵션이 표시되지 않습니다.

비용을 줄이는 현실적인 운영 방법

단발성 분석 요청은 1M을 활용하되, 요청 자체를 하나의 메시지로 완결하는 것이 효율적입니다. 이어지는 대화가 필요 없으면 캐시 TTL 문제도 없습니다. 반면 멀티 턴 코딩 세션에서는 컨텍스트를 의도적으로 작게 유지하는 방식, 예를 들어 서로 다른 탐색 경로는 서브에이전트에게 나눠 맡기는 식이 200K를 넘기지 않는 데 도움이 됩니다. 실제로 주요 서비스가 컨텍스트를 200K에서 500K로 올렸을 때 토큰 전체 사용량이 오히려 줄었다는 사례도 나왔습니다. 불필요한 컴팩션 루프가 사라진 덕분입니다. (출처: Anthropic 공식 블로그, Izzy Miller 사례, 2026.03.13)

▲ 목차로 돌아가기

Q&A

Claude Pro 플랜에서도 1M 컨텍스트를 쓸 수 있나요?

아직은 Max·Team·Enterprise 플랜의 Opus 4.6에서만 자동 적용됩니다. Pro 플랜에서는 API를 통해 직접 요청하면 접근할 수 있지만, 이 경우 토큰 단가 요금이 별도로 청구됩니다. Anthropic이 Pro 플랜 확대 계획을 아직 공개하지 않았습니다.

Sonnet 4.6로도 1M 컨텍스트를 쓸 수 있나요?

기술적으로는 가능합니다. 그런데 이전 버전 Sonnet 4.5의 MRCR v2 점수가 1M에서 18.5%였습니다. Sonnet 4.6 점수는 아직 공개되지 않았고, 개선됐을 가능성은 있지만 수치가 확인되기 전까지는 긴 컨텍스트 작업은 Opus 4.6을 권합니다. 요금도 2배 구간에 들어가는 건 마찬가지입니다.

세션 길이를 계속 늘리면 토큰 비용이 선형으로 늘어나나요?

선형이 아닙니다. 매 메시지마다 전체 이전 대화가 재전송됩니다. 10K 세션이 다음 메시지에 20K를 더하면 총 30K가 전송되고, 이런 식으로 누적됩니다. 다만 프롬프트 캐싱이 이전 토큰을 약 90% 저렴하게 읽어오기 때문에, 캐시가 살아있는 동안은 실질 증가폭이 줄어듭니다. 캐시가 5분 후 만료되면 다음 메시지에서 전체 토큰을 다시 비싸게 읽습니다.

600개 이미지 한도는 어떤 플랜에서 적용되나요?

Claude Platform 네이티브, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry 모두 2026년 3월 13일부터 적용됩니다. 이전에는 100장이 한도였으며, 대형 PDF를 올리다 막혔던 사례가 많았습니다. (출처: Anthropic 공식 블로그, 2026.03.13)

1M 컨텍스트를 쓸 때 응답 속도는 얼마나 느려지나요?

캐시가 따뜻할 때(5분 이내 재사용)와 차가울 때(신규 시작 또는 5분 초과) 차이가 큽니다. 500K 토큰 기준으로 캐시 워밍 상태에서는 약 3.5초, 콜드 상태에서는 약 35초가 걸립니다. 1M에서는 콜드 기준으로 60~90초까지 예상됩니다. (출처: Claude Code Camp 실측, 2026.03.13)

▲ 목차로 돌아가기

마치며

1M 컨텍스트 정식 출시에서 진짜 중요한 건 “크기”가 아닙니다. 창이 크다고 잘 쓰는 게 아니고, 그 창 안에서 무엇을 기억할 수 있는지가 핵심입니다. 이 점에서 Opus 4.6은 지금까지 나온 프런티어 모델 중 가장 높은 실측 성능을 보여주고 있습니다.

솔직히 말하면 대부분의 일상 코딩에는 1M이 필요 없습니다. 그리고 써야 할 상황이라면 200K 문턱, 5분 캐시 TTL, 콜드 스타트 지연을 미리 알고 들어가야 예상치 못한 청구를 피할 수 있습니다. 공식 문서에 다 나와 있는 내용이지만, 한 곳에 정리된 걸 찾기가 쉽지 않아 직접 모았습니다.

특히 대규모 계약서 분석, 전체 코드베이스 리뷰, 장시간 에이전트 실행처럼 컴팩션 한 번만 터져도 작업이 망가지는 상황에서는 이번 업데이트가 실질적인 차이를 만듭니다. 그 외의 상황에서는 세션 관리를 잘 하는 쪽이 여전히 비용 면에서 유리합니다.

본 포스팅 참고 자료

  1. Anthropic 공식 블로그 — 1M Context GA 발표 (2026.03.13)
  2. Claude Code Camp — 1M Context Window 실측 실험 보고서 (2026.03.13)
  3. RD World — Claude Opus 4.6 MRCR v2 비교 분석 (2026.02.05)
  4. Reddit ClaudeCode — 1M Context 비용 구조 토론 (2026.03.13)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Claude Platform, Pricing, 모델 스펙은 Anthropic의 공식 업데이트에 따라 달라질 수 있으므로 최신 정보는 공식 문서에서 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기