Claude Code 1M 컨텍스트, 추가 비용 없다고요?

Published on

in

Claude Code 1M 컨텍스트, 추가 비용 없다고요?

2026.03.13 정식 출시
Claude Code / Opus 4.6 기준

Claude Code 1M 컨텍스트,
추가 비용 없다고요?

결론부터 말씀드리면 — 네, 3월 13일부터 Claude Code의 1M 컨텍스트 윈도우는 추가 요금 없이 표준 단가 그대로 적용됩니다. 그런데 이걸 어떻게 쓰느냐에 따라 오히려 비용이 폭발할 수 있습니다. 그 이유를 공식 수치로 정리했습니다.

78.3%
Opus 4.6 MRCR v2
(1M 토큰 기준)
15% ↓
컴팩션 발생
감소율
802K
실제 사용 가능
토큰(1M 기준)
$5/M
Opus 4.6 입력
(전 구간 동일)

3월 13일, 무엇이 실제로 달라졌나

2026년 3월 13일, Anthropic이 공식 블로그에 짧은 글 하나를 올렸습니다. 제목은 딱 한 줄 — “1M context is now generally available for Opus 4.6 and Sonnet 4.6.” 변경 내용은 생각보다 단순하지만, 그 파급은 작지 않습니다.

2월 5일 Opus 4.6 출시 당시, 1M 컨텍스트는 베타 상태였습니다. 그리고 200K 토큰을 초과하면 입력 단가가 2배로 뛰는 프리미엄 구조가 붙어 있었습니다. Sonnet 4.6 기준으로 200K 초과 시 $3/M → $6/M으로, Opus 4.6은 $5/M → $10/M으로 올랐습니다. 이번 정식 출시에서 이 구분이 사라졌습니다.

공식 발표문에는 이렇게 나와 있습니다. “Standard pricing applies across the full window — $5/$25 per million tokens for Opus 4.6 and $3/$15 for Sonnet 4.6. There’s no multiplier: a 900K-token request is billed at the same per-token rate as a 9K one.”
(출처: Anthropic 공식 블로그, 2026.03.13)

900K 토큰 요청이나 9K 토큰 요청이나 단가는 똑같습니다. 베타 헤더도 더 이상 필요 없고, 200K 초과 요청도 코드 변경 없이 자동으로 작동합니다. Claude Code Max·Team·Enterprise 사용자는 Opus 4.6 세션에서 1M 컨텍스트가 기본값으로 적용됩니다.

미디어 한도도 함께 바뀌었습니다. 요청당 이미지 또는 PDF 페이지 한도가 100개에서 600개로 6배 늘었습니다. 단일 요청에 연구 논문 수백 편이나 대용량 계약서 전체를 통째로 넣는 게 현실적인 선택지가 됐습니다.

▲ 목차로 돌아가기

가격이 같아진 게 왜 큰일인지

2월에 1M 베타가 열렸을 때 많은 개발자들이 조심스럽게 접근했던 건 이유가 있었습니다. 200K를 단 1K라도 넘기는 순간, 그 요청의 전체 입력 토큰이 2배 단가로 재산정됐기 때문입니다. 아래 숫자가 이 구조를 직관적으로 보여줍니다.

요청 토큰 수 이전 구조 (Opus 입력) 현재 구조 (Opus 입력)
199,000 토큰 $0.995 $0.995
201,000 토큰 $2.010 (2배 단가 적용) $1.005
500,000 토큰 $5.000 (2배 단가 적용) $2.500
900,000 토큰 $9.000 (2배 단가 적용) $4.500

※ 입력 토큰 단가만 기준. Opus 4.6 $5/M 적용. 출처: Anthropic 공식 가격 페이지 및 공식 블로그 (2026.03.13)

201K 요청이 199K 요청의 딱 2배 비용이었던 시대가 끝났습니다. 3월 13일 이후로는 추가 토큰 2,000개에 해당하는 단가 $0.01만 더 냅니다. 이전엔 1,015개 토큰을 넘기는 순간 $507.50/M이라는 실효 단가가 붙던 구조였습니다.

이 변화가 개발 현장에서 갖는 실질적 의미는 하나입니다 — 컨텍스트 크기를 전략적으로 제한할 필요가 없어졌습니다. 200K 직전에서 세션을 의도적으로 끊거나, 긴 코드베이스를 억지로 잘라 넣던 불편함이 사라졌습니다.

▲ 목차로 돌아가기

크면 무조건 좋다는 생각이 틀린 이유

💡 공식 발표문과 Anthropic의 컨텍스트 엔지니어링 가이드를 같이 놓고 보니 이런 차이가 보였습니다 — “1M을 쓸 수 있다”는 말과 “1M을 쓰는 게 낫다”는 말은 다릅니다.

Anthropic이 1M 컨텍스트를 공개한 같은 시점에, 공식 엔지니어링 블로그에서는 이런 가이드를 내놓았습니다. “Good context engineering means finding the smallest possible set of high-signal tokens that maximize the likelihood of some desired outcome.”
(출처: Anthropic Engineering Blog, “Effective Context Engineering for AI Agents”, 2026)

창을 크게 열어줬지만, 많이 넣을수록 좋다고는 하지 않았습니다. 수치도 이를 뒷받침합니다. Opus 4.6의 MRCR v2 벤치마크 점수는 256K에서 92~93%이지만, 1M에서는 78.3%로 떨어집니다. 이 말은 4개 중 1개의 다중 참조 검색이 1M 구간에서 실패한다는 뜻입니다. 업계 최고 성능이 이 정도라면, 컨텍스트가 클수록 정확도도 올라간다는 통념은 사실과 다릅니다.

“중간에 넣은 내용은 모델이 놓칩니다”

Liu et al.(2024)의 연구에서 문서화된 현상입니다. 모델은 컨텍스트의 앞부분과 끝부분에 집중하고, 가운데 구간은 상대적으로 덜 처리합니다. 관련 정보가 가장자리에서 중앙으로 이동했을 때 성능이 30% 이상 떨어지는 패턴이 반복적으로 확인됩니다. 위치 임베딩의 구조적 특성 때문이어서 업데이트로 해결되는 문제가 아닙니다.

Anthropic도 이 문제를 직접 체험했습니다. Claude 2.1의 긴 컨텍스트 정확도가 27%에 불과했을 때, 프롬프트에 “Here is the most relevant sentence in the context”라는 한 줄을 추가했더니 98%로 뛰었습니다. 모델에 정보가 있었는데도 찾지 못하고 있었던 겁니다. 컨텍스트 크기가 아니라, 모델이 어디에 주의를 기울이느냐가 핵심이라는 걸 보여주는 실제 사례입니다.

12-factor agents 프레임워크는 이 지점에서 더 직설적입니다. 컨텍스트 윈도우를 40% 이상 채우면 “dumb zone”에 진입한다는 표현을 씁니다. 집중력이 흐트러지고, 에이전트가 실수를 시작합니다. Claude에만 해당하는 게 아니라, 트랜스포머 아키텍처의 공통 특성입니다.

▲ 목차로 돌아가기

컴팩션을 밀어낸다는 게 진짜 의미하는 것

💡 공개된 Claude Code 내부 수치를 역산해 보면, 1M 컨텍스트의 진짜 이점은 “5배 더 넓은 공간”이 아니라 “첫 번째 손실 압축까지의 거리가 5배”라는 점입니다.

Claude Code는 컨텍스트가 약 83.5% 차면 자동 컴팩션을 실행합니다. 가득 채운 대화 이력을 요약해서 새 윈도우로 이어가는 방식입니다. 공개된 버퍼 크기 수치(약 33K)를 기준으로 계산하면 이렇습니다.

컨텍스트 윈도우 컴팩션 전 실제 사용 가능 비고
200K 약 134K 토큰 이전 기본값
1M 약 802K 토큰 이번 GA 이후

※ Claude Code 컴팩션 트리거 83.5%, 버퍼 약 33K 기준 역산. 출처: paddo.dev 실측 분석 자료 (2026.03)

1M은 200K 대비 5배 큰 공간이지만, 컴팩션 없이 작업할 수 있는 거리는 6배 가까이 늘어납니다. 그리고 이 차이가 실질적으로 중요한 건, 컴팩션이 선형으로 손상을 주지 않기 때문입니다.

첫 번째 컴팩션은 그냥 넘어갈 수 있습니다. 두 번째부터 누적됩니다. 세 번이면 “요약의 요약의 요약”이 됩니다. 오전에 내린 아키텍처 결정이 오후에는 그냥 지워질 수 있습니다. Anthropic CPO Jon Bell이 보고한 “컴팩션 이벤트 15% 감소”라는 수치는 이 지점에서 훨씬 크게 작동합니다. 15%가 줄어든 게 아니라, 누적 손실이 기하급수적으로 억제됩니다.

다만 비용은 따져봐야 합니다. 1M 컨텍스트를 꽉 채우고 대화를 여러 번 이어가면, 요청당 Opus 4.6 입력만 $5가 나옵니다. 롱 세션을 여러 번 반복하면 하루치 청구서가 예상보다 크게 나올 수 있습니다. (출처: claude.com/blog/1m-context-ga, 2026.03.13)

▲ 목차로 돌아가기

경쟁사 대비 구조가 다른 지점

1M 컨텍스트 자체는 이미 여러 모델이 지원합니다. 하지만 가격 구조는 모델마다 다릅니다. 직접 비교해 보면 차이가 뚜렷합니다.

모델 1M 지원 장기 컨텍스트 요금
Claude Opus/Sonnet 4.6 전 구간 동일 (추가 없음)
GPT-5.4 ✅ (272K 초과는 실험적) 272K 초과 시 2배 단가
Gemini 3.1 Pro 200K 초과 시 2배 단가
($1.25/M → $2.50/M)
GPT-4.1 전 구간 동일

※ 2026.03.21 기준. 출처: paddo.dev 실측 분석 (2026.03), docsbot.ai 모델 비교, Anthropic 공식 블로그 (2026.03.13)

플래그십 모델과 미드티어 모델 모두 1M 전 구간 flat 요금을 제공하는 건 현재 Claude 계열이 유일합니다. GPT-4.1도 flat이지만, 플래그십인 GPT-5.4는 여전히 tiered입니다. OpenAI와 Google 모두 장기 컨텍스트에 프리미엄을 유지하고 있어서, 긴 컨텍스트 사용을 사실상 억제하는 구조입니다.

Hacker News 커뮤니티에서 한 댓글이 이 상황을 잘 요약했습니다. “Gemini had 1M in Feb 2024. But flat pricing with no quality degradation penalty? That’s the actual news.” 컨텍스트 크기보다 요금 구조가 더 실질적인 변화라는 시각입니다. 솔직히 동의하는 편입니다.

▲ 목차로 돌아가기

실제로 1M 써야 하는 경우 vs 굳이 안 써도 되는 경우

실측 데이터를 바탕으로 Anthropic의 공식 가이드라인과 커뮤니티 경험을 교차해 보면, 1M이 진짜 필요한 상황과 그렇지 않은 상황이 꽤 선명하게 갈립니다.

✅ 1M이 실질적으로 도움이 되는 경우

  • 중간 규모 코드베이스 단발성 분석 — 75,000줄 이상의 코드를 한 번에 읽히고 리뷰나 마이그레이션 계획을 뽑을 때. 대화가 짧으면 “중간 구간 손실” 문제도 비교적 덜합니다.
  • 계약서·논문 대용량 문서 한 세션에 처리 — 300페이지 계약서를 청킹 없이 한 번에 넣고 조항 간 교차 참조를 요청할 때. 분할 처리 시 생기는 맥락 단절을 줄여줍니다.
  • 디버깅 세션 중 맥락 보존이 필수인 상황 — 15개 파일에 걸친 버그를 추적할 때, 오전에 확인한 스택 트레이스와 오후의 수정 시도가 같은 창 안에 있어야 하는 경우입니다.
  • 에이전트 팀 공유 상태 유지 — 여러 서브에이전트가 각자의 분석 결과를 누적할 때, 1M이 없으면 리드 에이전트가 계속 컴팩션을 맞습니다.

❌ 굳이 1M을 쓸 필요가 없는 경우

  • 일반적인 Claude Code 일상 세션 — 실측에 따르면 대부분의 세션은 컴팩션 전 80~120K 수준에서 마무리됩니다. 200K에도 못 미치는 경우가 일반적입니다.
  • Sonnet 4.6을 1M에서 쓰는 경우 — Sonnet 4.5의 MRCR 1M 점수는 18.5%였습니다. 4.6은 아직 공개 수치가 없지만, 공식 Anthropic 권고는 장기 컨텍스트 검색 작업에 Opus를 사용하는 쪽입니다.
  • 자리를 자주 비우는 세션 — 캐시 TTL이 5분입니다. 500K 구간에서 캐시가 만료되면 콜드 스타트 시간이 30초 이상 걸립니다. 1M에서는 60~90초 추정입니다.
  • 긴 대화의 단순 연장 — 80턴 이상의 세션은 초반 맥락이 오히려 방해가 되는 경우가 많습니다. /clear로 시작을 새로 끊는 게 낫습니다.

정리하면, 1M 컨텍스트는 대화가 길어지는 것보다 한 번에 넣는 데이터가 큰 경우에 최적화됐습니다. 세션 길이를 늘리는 용도보다 단발성 대형 분석에서 더 확실하게 작동합니다.

▲ 목차로 돌아가기

자주 묻는 것들

Q. Claude Code Max 플랜에서 1M 컨텍스트를 쓰면 추가 비용이 없다는 게 맞나요?
Max 플랜에서 Opus 4.6로 작업하면 1M 컨텍스트가 기본 적용되고, 구독 한도 내에서는 추가 과금 없이 사용됩니다. 단, API를 직접 호출하는 경우에는 Opus 4.6 기준 입력 $5/M, 출력 $25/M 표준 단가가 전 구간 동일하게 청구됩니다. “추가 비용 없음”은 이전에 있던 200K 초과 2배 프리미엄이 사라졌다는 의미이고, 토큰 단가 자체가 무료라는 뜻이 아닙니다.
Q. Sonnet 4.6도 1M 컨텍스트 정확도가 Opus와 비슷한가요?
Sonnet 4.5의 MRCR v2 1M 점수는 18.5%였습니다. 4.6 기준 수치는 아직 공개되지 않았습니다. Anthropic 공식 문서는 긴 컨텍스트 검색 작업에 Opus 사용을 권고하고 있습니다. 비용 우선이라면 Sonnet 4.6도 선택지이지만, 긴 컨텍스트에서의 정확도 보장을 위해서는 Opus가 안전합니다.
Q. 베타 헤더를 제거해야 하나요?
제거 안 해도 됩니다. 공식 발표문에 따르면 기존에 베타 헤더를 보내던 코드는 그냥 두면 자동으로 무시됩니다. 코드 변경 없이 200K 초과 요청이 자동으로 작동합니다.
Q. 1M 넣으면 응답이 느려지지 않나요?
캐시 상태에 따라 크게 다릅니다. 캐시가 따뜻할 때(직전 요청 후 5분 이내) 500K 구간에서도 첫 토큰까지 약 3.5초입니다. 캐시 없이 콜드 시작하면 같은 구간에서 약 35초입니다. 1M에서 콜드 스타트는 60~90초 추정입니다. 자리를 자주 비우는 세션이라면 체감 지연이 클 수 있습니다.
Q. Amazon Bedrock이나 Google Vertex AI에서도 같은 조건으로 쓸 수 있나요?
네, 공식 발표 기준으로 Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry 모두 동일한 조건으로 사용 가능합니다. 단, 각 클라우드 플랫폼의 가격 정책은 해당 플랫폼에서 별도로 확인해야 합니다.

▲ 목차로 돌아가기

마치며

Claude Code 1M 컨텍스트의 정식 출시에서 가장 중요한 변화는 숫자 자체가 아니라 요금 구조입니다. 200K 초과 프리미엄이 사라지면서, 긴 컨텍스트를 쓰는 것 자체가 리스크가 되던 상황이 끝났습니다.

그렇다고 1M을 항상 꽉 채우는 게 맞는 방향은 아닙니다. Anthropic 자신이 공식 가이드에서 “가능한 한 작은 고밀도 토큰”을 권장합니다. 1M에서 Opus 4.6도 4개 중 1개는 놓칩니다. 중간 구간 정보는 여전히 더 자주 흘립니다.

1M 컨텍스트가 진짜 힘을 발휘하는 건 대화를 길게 이어가는 상황이 아니라, 처음 한 번에 큰 것을 통째로 넣을 때입니다. 긴 세션의 연장이 아니라 대형 단발 분석의 도구로 쓸 때 — 그 때 추가 비용 없는 1M은 명확히 실용적입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Anthropic 공식 블로그 — “1M context is now generally available for Opus 4.6 and Sonnet 4.6” (claude.com/blog/1m-context-ga, 2026.03.13)
  2. Anthropic Engineering Blog — “Effective Context Engineering for AI Agents” (anthropic.com/engineering, 2026)
  3. Anthropic 공식 가격 문서 (platform.claude.com/docs)
  4. paddo.dev — “Context Stops Being Scarce” (2026.03) — 경쟁사 pricing 구조 비교 및 Claude Code 컴팩션 역산 수치
  5. claudecodecamp.com — “Claude Code 1M Context Window: Cost, Limits, and When to Use It” (2026.03, 3/13 이후 업데이트 반영)
  6. Liu et al. (2024) — “Lost in the Middle: How Language Models Use Long Contexts” — Transactions of the Association for Computational Linguistics

본 포스팅은 2026년 3월 21일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 가격, 한도, 모델 사양 등은 Anthropic 공식 문서에서 최신 정보를 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기