Claude 1M 컨텍스트, 토큰이 늘면 비용도 늘까요?

Published on

in

Claude 1M 컨텍스트, 토큰이 늘면 비용도 늘까요?

2026.03.13 기준
Opus 4.6 / Sonnet 4.6
GA 정식 전환

Claude 1M 컨텍스트,
토큰이 늘면 비용도 늘까요?

“컨텍스트가 5배 늘었으니 비용도 5배겠지.” — 써보니까 아니었습니다.
3월 13일, Anthropic이 Claude 1M 컨텍스트를 정식 GA로 전환하면서 요금 체계가 바뀌었습니다.
프리미엄 없이 표준가. 실제로 어떤 의미인지, 공식 수치로 직접 확인했습니다.

1,000,000
컨텍스트 토큰
78.3%
MRCR v2 정확도
600장
이미지·PDF 최대
$0
추가 프리미엄

200K 초과 프리미엄이 사라진 날

Claude 1M 컨텍스트 윈도우가 처음 등장한 건 2026년 2월 5일, Opus 4.6 출시 때였습니다. 그런데 당시 Anthropic은 명시적으로 이렇게 안내했습니다. “200K 토큰을 초과하는 입력에는 프리미엄 요금이 적용됩니다 — 입력 토큰 백만 개당 $10, 출력 토큰 백만 개당 $37.50.” (출처: Anthropic 공식 발표문, 2026.02.05)

단순 계산이면 이렇습니다. 200K 초과 구간의 입력 프리미엄이 표준가의 2배였습니다. 900K 토큰짜리 요청을 보낼 경우, 처음 200K는 $5/MTok, 나머지 700K는 $10/MTok으로 과금됩니다. 같은 입력인데 위치에 따라 단가가 달라지는 구조였죠.

그런데 3월 13일, Anthropic이 공식 블로그를 통해 발표를 바꿨습니다. “No long-context premium. A 900K-token request is billed at the same per-token rate as a 9K one.” (출처: claude.com/blog/1m-context-ga, 2026.03.13) 구간 프리미엄이 완전히 사라지고, 표준가가 1M 윈도우 전체에 균일하게 적용됩니다. 이전에 길이에 따라 비용이 달라지던 구조가 단순해졌습니다.

▲ 목차로 돌아가기

1M 토큰은 실제로 얼마짜리인가

표준가 기준으로 Opus 4.6과 Sonnet 4.6의 요금을 정리하면 다음과 같습니다. (출처: Anthropic 공식 pricing 페이지, 2026.03.13 갱신)

모델 입력 (100만 토큰) 출력 (100만 토큰) 컨텍스트
Claude Opus 4.6 $5 $25 1M 토큰
Claude Sonnet 4.6 $3 $15 1M 토큰
Claude Opus 4.1 (구) $15 $75 200K 토큰

단순 계산: Opus 4.6으로 1M 토큰 입력을 한 번 보내면 $5입니다. 750,000단어, 책 한 권 분량 전체를 단일 요청에 담는 비용이 커피 한 잔값에 가깝습니다. 이전 세대 Opus 4.1로 같은 분량을 처리하려면 200K씩 5번 나눠서 보내야 했고, 각 요청당 $15 기준이므로 최소 $75였습니다.

그러나 한 가지 기억할 점이 있습니다. 1M 토큰 요청 한 번 보내는 것 자체가 비싸지는 않지만, 실시간 채팅처럼 매 턴마다 긴 컨텍스트를 통째로 재전송하는 방식이라면 비용이 빠르게 누적됩니다. 배치·비동기 워크플로가 더 유리한 구조는 달라지지 않습니다.

▲ 목차로 돌아가기

컨텍스트가 커지면 토큰이 줄어드는 상황

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — 컨텍스트를 늘렸더니 오히려 총 토큰이 줄었다는 사용자 보고가 공식 블로그에 실명으로 올라왔습니다.

Izzy Miller(AI Research Lead)는 Anthropic 공식 블로그에 이렇게 적었습니다. “Opus 컨텍스트 윈도우를 200K에서 500K로 올렸더니 에이전트가 더 효율적으로 작동합니다. 전체적으로 사용하는 토큰이 오히려 줄었습니다. 오버헤드가 적어지고, 목표에 더 집중합니다.” (출처: claude.com/blog/1m-context-ga, 2026.03.13)

이유가 뭘까요. 이전에는 컨텍스트가 가득 차면 Context Compaction이 동작해서 오래된 내용을 요약하고 교체하는 과정에서 추가 토큰이 발생했습니다. 그리고 요약 과정에서 정보 손실이 일어나면 에이전트가 같은 내용을 다시 탐색하거나, 충돌되는 판단을 내리면서 여러 번 재시도하게 됩니다. 컨텍스트 자체를 넓혀서 이 Compaction 횟수가 줄어드니 전체 토큰 소비도 내려가는 겁니다.

Jon Bell(CPO)도 같은 맥락에서 보고했습니다. “Opus 4.6의 1M 컨텍스트 도입 후 Compaction 이벤트가 15% 감소했습니다.” (출처: claude.com/blog/1m-context-ga, 2026.03.13) 감소율 자체보다 방향성이 중요합니다. 컨텍스트가 넓어지면서 재작업 비용이 줄어들었다는 실측 데이터입니다.

▲ 목차로 돌아가기

Gemini보다 긴데 왜 더 정확한가

💡 컨텍스트 길이와 검색 정확도는 별개 문제입니다 — 2M 토큰을 지원하는 Gemini가 1M 컨텍스트 정확도 벤치마크에서 Claude 대비 1/3 수준에 그치는 이유를 수치로 살펴봤습니다.

Gemini 3.1 Pro는 2M 토큰까지 컨텍스트를 지원합니다. Claude Opus 4.6는 1M 토큰입니다. 숫자만 보면 Gemini가 우위입니다. 그런데 MRCR v2(Multi-Round Coreference Resolution) 1M 토큰 8-needle 변형 벤치마크에서 결과가 뒤집힙니다.

Claude Opus 4.6: 78.3% / Gemini 3 Pro(Thinking 포함): 24.5% (출처: Anthropic 공식 발표문, 2026.02.05 / claude.com/blog/1m-context-ga, 2026.03.13)

MRCR v2는 긴 텍스트 안에 숨겨진 여러 개의 정보를 정확히 찾아내는 능력을 측정합니다. 컨텍스트 한가운데에 묻힌 내용이 얼마나 유실되는지를 보는 테스트입니다. Gemini 24.5%는 4번 중 1번 꼴로만 정답을 내는 수준입니다. Claude 78.3%는 5번 중 4번 가까이 맞춥니다. 지원 컨텍스트 길이가 2배 길어도, 실제 꺼내 쓰는 능력은 3배 이상 차이납니다.

이전 세대 Claude Sonnet 4.5는 같은 벤치마크에서 18.5%였습니다. Opus 4.6이 78.3%를 기록한 건 단순 업그레이드가 아니라 아키텍처 수준의 변화입니다. (출처: Anthropic 공식 발표문, 2026.02.05)

▲ 목차로 돌아가기

1M 컨텍스트가 RAG를 완전히 대체할 수 없는 이유

1M 토큰이면 약 75만 단어, 밀도 높은 책 2,000~3,000페이지 분량입니다. 이 정도면 “벡터 DB, 청킹 파이프라인 다 없애도 되지 않나”라는 생각이 드는 게 자연스럽습니다. 그런데 직접 확인하면 다릅니다.

먼저 규모의 문제입니다. 중간 규모 기업의 내부 문서는 수백만 건입니다. 그 전체를 한 번에 컨텍스트에 넣는 건 1M 토큰으로도 불가능합니다. RAG는 관련 있는 일부를 골라내는 역할을 합니다. 이 선별 과정은 여전히 필요합니다.

그다음은 10% 오류율 문제입니다. 78.3% 정확도의 이면은 21.7%의 실패율입니다. 1,000개 문서를 처리할 때 약 217개는 잘못된 정보를 추출합니다. 민감한 법률 검토나 재무 분석처럼 오류가 치명적인 워크플로에서는 검증 단계를 별도로 설계해야 합니다. (출처: mindstudio.ai, 2026.03.16)

다만 달라지는 건 “어디서 RAG가 필요한가”입니다. 대규모 말뭉치에서 상위 후보를 추리는 데는 RAG가 여전히 유효합니다. 하지만 그 후보 집합을 가져온 뒤, 청킹 없이 통째로 넣어서 추론하는 게 가능해졌습니다. RAG와 긴 컨텍스트는 대체 관계가 아니라 분업 관계에 가깝습니다.

▲ 목차로 돌아가기

Claude Code에서 달라지는 점

이번 GA 전환에서 실무적으로 가장 직접적인 영향을 받는 영역이 Claude Code입니다. Max, Team, Enterprise 플랜의 Opus 4.6는 이제 1M 컨텍스트가 자동으로 기본 적용됩니다. 이전에는 별도 설정이나 추가 비용이 필요했습니다. (출처: claude.com/blog/1m-context-ga, 2026.03.13)

Anton Biryukov(Software Engineer)의 실사용 보고입니다. “Claude Code는 Datadog, Braintrust, DB, 소스 코드를 탐색하면서 100K+ 토큰을 태웁니다. 그러면 Compaction이 걸립니다. 세부 정보가 사라집니다. 뺑뺑이 디버깅이 시작됩니다. 1M 컨텍스트에서는 탐색, 재탐색, 엣지 케이스 수집, 수정 제안을 단일 윈도우 안에서 끝냅니다.” (출처: claude.com/blog/1m-context-ga, 2026.03.13) 에이전트의 ‘망각’이 줄어드는 게 핵심입니다.

베타 헤더(beta header)를 별도로 추가할 필요도 없어졌습니다. 이미 베타 헤더를 전송 중인 코드는 그냥 무시됩니다. 코드 변경 없이 자동 적용입니다.

▲ 목차로 돌아가기

지금 써야 할 경우, 아직 기다려야 할 경우

모든 워크플로에 1M 컨텍스트가 유리하지는 않습니다. 실용적인 기준을 정리했습니다.

✅ 지금 바로 유리한 경우

  • 긴 계약서·법률 문서 전체 분석
  • 수백 개 파일을 가진 코드베이스 마이그레이션
  • 다중 에이전트 장시간 실행 태스크
  • 수백 페이지 논문·연구 자료 합성
  • Claude Code Max/Team/Enterprise 사용자

⚠️ 신중하게 검토할 경우

  • 실시간 채팅 앱 (매 턴마다 풀 컨텍스트 재전송)
  • 고빈도 API 호출 (비용 누적 빠름)
  • 단순 Q&A 봇 (오버스펙)
  • 오류율 0%가 요구되는 의료·법률 결정 자동화

개인적으로 가장 체감이 클 영역은 Claude Code에서 큰 코드베이스를 다루는 경우라고 봅니다. 이전에는 Compaction 때문에 중간에 맥락이 끊기는 느낌이 잦았는데, 1M 컨텍스트가 기본 적용되면서 그 부분이 개선될 여지가 생겼습니다. 다만 토큰 비용 자체는 그대로이므로, Max 플랜이 아닌 환경에서는 세션 길이를 의식적으로 관리할 필요가 있습니다.

▲ 목차로 돌아가기

자주 묻는 질문

Q. Sonnet 4.6도 1M 컨텍스트를 쓸 수 있나요?

네, Opus 4.6와 동일하게 1M 컨텍스트가 표준가로 제공됩니다. Sonnet 4.6 기준으로 입력 $3/MTok, 출력 $15/MTok이 1M 전체에 균일 적용됩니다. (출처: claude.com/blog/1m-context-ga, 2026.03.13)

Q. Haiku 모델은 1M 컨텍스트가 안 되나요?

2026년 3월 23일 현재, Haiku 계열은 200K 컨텍스트 윈도우를 유지하고 있습니다. 1M 컨텍스트 GA는 Opus 4.6과 Sonnet 4.6에만 적용됩니다. Anthropic이 공식 이유를 밝히지 않은 부분입니다.

Q. Amazon Bedrock, Google Vertex AI에서도 쓸 수 있나요?

네. 2026년 3월 13일 발표 기준으로 Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서 모두 사용 가능합니다. (출처: claude.com/blog/1m-context-ga, 2026.03.13)

Q. 이미지·PDF를 넣을 수 있는 한도도 달라졌나요?

네, 기존 100장·페이지에서 600장·페이지로 6배 늘었습니다. Claude Platform, Microsoft Foundry, Google Vertex AI에서 동일하게 적용됩니다. (출처: claude.com/blog/1m-context-ga, 2026.03.13)

Q. 프롬프트 캐싱(Prompt Caching)을 쓰면 1M 컨텍스트 비용을 더 줄일 수 있나요?

캐시 쓰기는 입력 토큰 단가의 2배이지만, 캐시 읽기는 표준 입력 단가의 10%(약 90% 절감)입니다. 동일한 큰 컨텍스트를 반복 사용하는 패턴이라면 캐싱과 1M 컨텍스트를 조합하는 것이 비용 측면에서 유리합니다. (출처: Anthropic 공식 pricing 페이지, 2026.03.13 갱신)

▲ 목차로 돌아가기

마치며 — 총평

이번 GA 전환에서 제가 가장 인상적으로 본 지점은 요금 구조 단순화입니다. “긴 요청은 비싸다”는 직관이 공식적으로 사라졌습니다. 900K 토큰짜리 요청과 9K 토큰짜리 요청이 같은 단가입니다. 개발자 입장에서는 컨텍스트 크기에 따라 분기 처리를 짜던 코드를 버릴 수 있습니다.

78.3% MRCR v2 정확도는 숫자 이상의 의미가 있습니다. 이전 Claude 모델(Sonnet 4.5)이 18.5%였고, 경쟁 모델(Gemini 3 Pro)이 24.5%인 상황에서 78.3%는 질적 도약입니다. 컨텍스트 길이가 긴 AI가 아니라, 긴 컨텍스트를 제대로 쓰는 AI가 되는 데 훨씬 가까워진 수치입니다.

다만 만능은 아닙니다. 10%대 오류율이 남아 있고, 실시간 고빈도 쿼리에서는 비용 누적이 여전히 빠릅니다. 지금 이 기능이 가장 빛나는 곳은 Claude Code로 대형 코드베이스를 다루거나, 수백 페이지짜리 문서를 통째로 분석하는 배치 작업입니다. 그 범위 안에서는 써볼 가치가 충분합니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

  1. Anthropic 공식 블로그 — 1M Context Window GA 발표 (claude.com/blog/1m-context-ga, 2026.03.13)
  2. Anthropic 공식 발표 — Introducing Claude Opus 4.6 (anthropic.com/news/claude-opus-4-6, 2026.02.05)
  3. MindStudio 분석 — Claude 1M Token Context Window: What It Means for AI Agents (mindstudio.ai, 2026.03.16)
  4. The New Stack — Anthropic makes a pricing change that matters for Claude’s longest context (thenewstack.io, 2026.03.17)
  5. InfoQ — Claude Opus 4.6 Introduces Adaptive Reasoning and Context Compaction (infoq.com, 2026.03.12)

※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 2026년 3월 13일 기준 Anthropic 공식 발표 및 문서를 근거로 합니다. Anthropic이 별도 공지 없이 요금 정책 및 모델 스펙을 변경할 수 있으므로 실제 사용 전 공식 페이지를 확인해 주세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기