Claude 1M context, 4가지 수치로 직접 확인했습니다

Published on

in

Claude 1M context, 4가지 수치로 직접 확인했습니다

2026.03.13 GA 기준
Claude Opus 4.6 · Sonnet 4.6
IT/AI

Claude 1M context, 4가지 수치로 직접 확인했습니다

2026년 3월 13일, Anthropic이 Claude Opus 4.6·Sonnet 4.6의 100만 토큰 컨텍스트 창을 정식 출시했습니다. “추가 요금 없다”는 발표가 화제를 모았는데, 실제로 공식 문서와 실측 데이터를 놓고 보니 그게 전부가 아니었습니다.

78.3%
Opus 4.6 MRCR v2
18.5%
Sonnet 4.5 MRCR v2
15%
Claude Code 압축 이벤트 감소
60~90초
1M 콜드 스타트 예상 응답 대기

“추가 요금 없음”이 전부가 아닌 이유

Anthropic의 공식 블로그 발표 문구는 이렇습니다. “One price, full context window. No long-context premium.” (출처: Anthropic 공식 블로그, 2026.03.13) 이걸 읽으면 누구나 ‘이제 1M 토큰 써도 돈이 똑같이 나가는구나’라고 생각합니다.

💡 공식 발표문과 실제 API 청구 구조를 같이 놓고 보니 이런 차이가 보였습니다

이 “추가 요금 없음”은 Claude.com 구독 플랜(Max/Team/Enterprise)에 해당하는 이야기입니다. API를 직접 쓰는 개발자라면 여전히 200K 토큰 초과 시 입력 단가가 2배로 오릅니다. 두 가지 이야기가 동시에 사실입니다.

실측 실험(claudecodecamp.com 기준, 2026.03.13 업데이트)에서 확인된 API 가격 구조는 이렇습니다.

모델 표준 입력 (200K 이하) 장문 입력 (200K 초과) 배율
Opus 4.6 $5.00/M $10.00/M
Opus 4.6 출력 $25.00/M $37.50/M 1.5×
Sonnet 4.6 $3.00/M $6.00/M
Sonnet 4.6 출력 $15.00/M $22.50/M 1.5×

(출처: claudecodecamp.com 실측 실험, 2026.03.13 업데이트 기준)

더 주목할 점이 있습니다. 200K를 1토큰이라도 넘으면 그 이전 토큰 전부에 장문 요금이 소급 적용됩니다. 199K 토큰짜리 요청과 201K 토큰짜리 요청의 비용 차이는 단 2,000토큰 때문에 약 2배가 납니다. API 개발자라면 반드시 알아야 할 구조입니다.

반면 Claude Code의 Max·Team·Enterprise 구독자라면 이야기가 다릅니다. Opus 4.6 세션이 자동으로 1M 컨텍스트를 사용하고, 이전에는 별도 추가 사용량으로 청구되던 것이 이제 구독 요금에 포함됩니다. (출처: Anthropic 공식 블로그, 2026.03.13)

Pro 구독자는 Claude Code에서 /extra-usage 명령을 직접 입력해야 활성화됩니다. 이유는 Anthropic이 공식 답변을 내놓지 않은 부분이지만, 수익 구조상 업그레이드 유도용 마찰로 읽힙니다.

▲ 목차로 돌아가기

100만 토큰이 실제로 얼마나 큰가

“100만 토큰”이라는 숫자는 직관적이지 않습니다. 공식 발표 기준으로 환산하면 이렇습니다.

750,000
단어 수 (영어 기준)
한국어는 약 40~50만 단어
3,000
밀도 높은 텍스트 페이지
600
이미지 또는 PDF 페이지
(기존 100개 → 6배 확대)
110,000
코드 라인 수 (중간 규모 프로젝트)

(출처: Anthropic 공식 블로그, 2026.03.13 / karozieminski.substack.com)

이전 Claude의 표준 창은 약 200K 토큰이었습니다. 이번 GA로 5배가 됐습니다. 실제로 어떤 변화가 생기냐면, Claude Code에서 대형 코드베이스를 검색하고 데이터베이스를 조회하면서 100K 토큰을 훌쩍 넘기던 작업이, 이제는 압축(compaction) 없이 한 세션에서 끝납니다.

Anthropic이 직접 공개한 수치로는, 1M 컨텍스트 적용 이후 Claude Code의 압축 이벤트가 15% 감소했습니다. (출처: Anthropic 공식 블로그, 2026.03.13) 수치만 보면 작아 보이지만, 압축이 발생할 때 잘려나가는 건 항상 “방금 전 내린 판단”이라는 걸 떠올리면 체감 차이는 훨씬 큽니다.

💡 미디어 한도 6배 확대가 숨은 핵심입니다

이번 GA에서 조용히 바뀐 것 중 하나가 미디어 한도입니다. 이미지·PDF 첨부가 세션당 100개에서 600개로 늘었습니다. (출처: Anthropic 공식 블로그, 2026.03.13) 법률 문서 검토나 대용량 리포트 분석처럼 이미지·PDF가 섞인 작업에서 이 변화가 즉각 체감됩니다.

▲ 목차로 돌아가기

Opus와 Sonnet, 같은 창 다른 실력

솔직히 말하면, 이 부분이 이번 GA에서 가장 중요한 포인트입니다. Claude 1M context라고 하면 Opus 4.6과 Sonnet 4.6 모두 지원하는 것처럼 보이는데, 실제 성능은 전혀 다릅니다.

Anthropic이 사용한 벤치마크는 MRCR v2(Multi-Round Coreference Resolution, 버전 2)입니다. 3,000페이지짜리 문서 안에 아주 구체적인 사실 2개를 숨겨놓고, 모델이 둘 다 정확히 찾아내는지 확인하는 테스트입니다. ‘하나라도’ 아니라 ‘둘 다’를 찾아야 점수가 납니다.

모델 MRCR v2 점수 (1M 기준) 참고
Claude Opus 4.6 78.3% 프런티어 모델 중 최고
Gemini 3 Pro 26.3% 1M 지원 but 회수율 낮음
Claude Sonnet 4.5 18.5% 1M 창이 있어도 사실상 비실용
Claude Sonnet 4.6 미발표 Anthropic이 수치를 공개하지 않음

(출처: Anthropic 공식 블로그 2026.03.13 / claudecodecamp.com MRCR v2 기준)

Opus 4.6은 256K 구간에서 93%를 기록하다가 1M에서 78.3%로 떨어집니다. 약 15%p 하락인데, 이 정도면 실무에서 쓸 만한 수준입니다. 반면 Sonnet 4.5는 1M에서 18.5%입니다. 10번 중 8번은 틀린다는 뜻입니다.

⚠️ Sonnet 4.6의 1M 성능은 아직 검증이 안 됐습니다

Anthropic은 이번 GA 발표에서 Sonnet 4.6의 MRCR v2 점수를 따로 공개하지 않았습니다. 4.6이 4.5보다 나을 수 있지만, 공식 수치가 없는 상태에서 1M 창을 믿고 중요한 작업에 쓰는 건 위험합니다. Sonnet으로 긴 컨텍스트 작업을 해야 한다면 실제 검증 후 사용을 권장합니다.

“lost in the middle” 문제도 여전히 남아 있습니다. 컨텍스트의 앞과 뒤는 잘 기억하지만, 중간 부분은 주의가 분산됩니다. 중요한 정보는 컨텍스트의 앞이나 끝 부분에 배치하는 습관이 1M 창에서도 유효합니다. (출처: claudecodecamp.com 실측, 2026.03.13)

▲ 목차로 돌아가기

지연 시간, 캐시 없으면 최대 90초

1M 컨텍스트를 쓸 때 처음 메시지를 보내고 얼마나 기다려야 할까요? 실측 실험에서 나온 수치를 정리하면 이렇습니다.

컨텍스트 크기 캐시 있을 때 (TTFT) 캐시 없을 때 (콜드)
50K 약 0.8초 약 2초
200K 약 1.6초 약 9초
500K 약 3.5초 약 35초
1M (추정) 약 5~7초 추정 60~90초 추정

(출처: claudecodecamp.com 실측, 2026.03.13 기준 / 1M 콜드 수치는 멱함수 외삽 추정값)

1M 콜드 스타트는 60~90초입니다. 실시간 채팅에서 이 대기 시간은 쓰기 힘든 수준입니다. 배치 처리나 비동기 워크플로우에서 써야 합니다.

💡 캐시 TTL 5분이 실무에서 중요한 이유

프롬프트 캐시는 마지막 사용 후 5분이 지나면 만료됩니다. 커피 한 잔 마시고 돌아왔더니 캐시가 식어 있고, 500K 컨텍스트에서 다음 메시지를 보내면 35초를 기다려야 합니다. 긴 세션에서 자리를 비울 때는 중간 저장 지점을 만들어두는 게 현실적입니다.

또 하나 주의할 점이 있습니다. 에이전트 설계에서 도구 호출 결과가 누적되면 컨텍스트가 예상보다 빠르게 불어납니다. 실제로 한 개발자의 사례에서는 Claude 내부의 도구 호출 하나가 데이터베이스 전체를 당겨와 800K 토큰을 소비하는 사고가 발생했습니다. 1M 창이 크다는 이유로 에이전트에 무한정 맥락을 쌓으면 비용이 폭발합니다. (출처: karozieminski.substack.com, 2026.03.13)

▲ 목차로 돌아가기

경쟁사 비교 — 숫자로 보면 달라 보인다

“1M 토큰 지원”이라는 문구는 이제 Claude만의 것이 아닙니다. Gemini도 1M, GPT-5.4도 1M을 지원합니다. 그런데 비교해보면 요금 구조와 실제 성능이 꽤 다릅니다.

항목 Claude Opus 4.6 GPT-5.4 (API) Gemini 3 Pro
최대 컨텍스트 1M 1.05M 1M
장문 추가 요금 200K 초과 시 2× (API) 272K 초과 시 전체 2× (소급) 구간별 상이
MRCR v2 (1M) 78.3% 미발표 26.3%
구독 플랜 1M 포함 Max/Team/Enterprise 자동 ChatGPT: 128~200K 제한 Gemini Advanced 일부

(출처: Anthropic 공식 블로그 2026.03.13 / karozieminski.substack.com / claudecodecamp.com)

▲ 목차로 돌아가기

실제로 쓸 때 이득이 되는 상황과 아닌 상황

1M 컨텍스트가 모든 상황에서 이득이 되진 않습니다. 실측 데이터를 바탕으로 써볼 만한 경우와 굳이 쓸 필요 없는 경우를 나눠봤습니다.

쓸 만한 경우

추천
대형 코드베이스 단일 분석

전체 코드베이스를 한 번에 넣고 분석하는 단발성 요청. 여러 파일 간 의존성을 한 번에 볼 수 있고, 중간에 맥락이 잘릴 염려가 없습니다.

추천
계약서·법률 문서 전체 검토

400페이지짜리 계약 묶음을 한 세션에 올려놓고 전 협상 이력을 교차 비교할 수 있습니다. 이전에는 청크 분할 없이 불가능했던 작업입니다.

추천
15개 파일 이상 넘나드는 디버깅 세션

컴포넌트 간 상호작용에서 발생하는 버그를 추적할 때, 압축 없이 초반 가설과 최신 스택 트레이스를 동시에 붙잡을 수 있습니다.

굳이 쓸 필요 없는 경우

비추천
일반적인 Claude Code 세션

대부분의 일상 코딩 세션은 80~120K 토큰 수준입니다. 200K를 넘지 않으면 추가 비용도 없고, 표준 모델과 성능 차이도 없습니다.

비추천
자주 자리를 비우는 장시간 세션

캐시 TTL은 5분입니다. 6분만 자리를 비워도 다음 메시지는 콜드 스타트입니다. 500K 이상 컨텍스트에서 이 패턴이 반복되면 체감 속도가 형편없습니다.

비추천
Sonnet 4.6으로 긴 문서 분석

Sonnet 4.6의 1M 회수 정확도는 아직 공개되지 않았습니다. 전작 Sonnet 4.5가 18.5%였던 점을 감안하면, 정확도가 중요한 작업은 Opus로 진행하는 게 안전합니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. 구독 플랜 사용자라면 1M 컨텍스트를 무료로 쓸 수 있나요?
Max·Team·Enterprise 구독자는 Opus 4.6 세션에서 1M 컨텍스트가 자동 활성화되고 별도 비용이 부과되지 않습니다. Pro 구독자는 Claude Code에서 /extra-usage 명령으로 수동 활성화해야 합니다. API 개발자는 200K 초과 시 2× 요금이 적용됩니다. (출처: Anthropic 공식 블로그, 2026.03.13)
Q2. 1M 토큰이면 RAG를 쓰지 않아도 될까요?
완전히 대체하지는 않습니다. 수백만 건의 문서가 있는 대규모 지식 베이스에는 여전히 검색이 필요합니다. 하지만 특정 계약 묶음, 코드베이스, 제품 문서 라이브러리처럼 ‘경계가 있는’ 문서 집합에서는 청킹·임베딩 파이프라인 없이 전체를 넣을 수 있게 됐습니다. RAG가 사라지는 게 아니라, RAG가 필요한 구간이 달라지는 겁니다.
Q3. Sonnet 4.6과 Opus 4.6 중 어떤 걸 써야 하나요?
컨텍스트가 200K 이하인 일반적인 작업이라면 Sonnet 4.6으로 충분합니다. 컨텍스트가 200K를 넘고 정확한 정보 회수가 중요한 작업이라면 Opus 4.6을 써야 합니다. 전작 Sonnet 4.5의 1M MRCR 점수가 18.5%였다는 점, Sonnet 4.6의 1M 성능은 아직 공개되지 않았다는 점을 감안하면, 중요한 작업에서 Sonnet으로 1M 컨텍스트를 쓰는 건 아직 검증되지 않은 도전입니다.
Q4. 이 기능은 Amazon Bedrock·Google Vertex AI에서도 쓸 수 있나요?
네, 사용 가능합니다. Anthropic 공식 발표에 따르면 Claude Platform 외에도 Amazon Bedrock, Google Cloud Vertex AI, Microsoft Azure AI Foundry에서 동일하게 사용할 수 있습니다. 단, 각 클라우드 제공사의 요금 정책은 Anthropic과 다를 수 있으므로 각 플랫폼 가격 문서를 별도로 확인해야 합니다. (출처: Anthropic 공식 블로그, 2026.03.13)
Q5. 900K 토큰 요청을 보내면 실제 비용이 얼마나 드나요?
API 기준, 구독 플랜이 아닌 경우입니다. 900K 토큰은 200K를 초과하므로 전체에 장문 단가가 적용됩니다. Opus 4.6 기준: 900K × $10.00/M = $9.00(입력). 여기에 출력 토큰과 캐시 비용이 더해집니다. 참고로 캐시 없는 9K 토큰 요청은 9K × $5.00/M = $0.045입니다. 입력 토큰만 따지면 900K 요청이 9K 요청의 약 200배 비용입니다. 이 차이는 배치 처리가 경제적으로 의미 있는지 설계 단계에서 반드시 따져봐야 하는 이유입니다.

▲ 목차로 돌아가기

마치며

Claude 1M context GA는 분명 의미 있는 업데이트입니다. 압축이 끊기던 대형 코드베이스 세션, 수백 페이지를 쪼개야 했던 계약 분석 작업, 에이전트가 초반 맥락을 잊어버리던 긴 추론 루프에서 체감이 다릅니다.

다만 두 가지는 짚고 넘어가야 합니다. “추가 요금 없음”은 구독 플랜 기준이고, API를 직접 쓰면 200K 초과 시 2배 단가가 여전히 존재합니다. 그리고 1M 창이 있다고 해서 모든 모델이 그 창을 잘 쓰는 건 아닙니다. Opus 4.6은 78.3%로 쓸 만하지만, Sonnet 계열은 공식 수치가 나올 때까지 긴 컨텍스트 정확도를 믿기 어렵습니다.

결국 이번 업데이트는 “쓸 수 있게 됐다”와 “잘 쓰려면 알아야 할 게 생겼다”가 동시에 일어난 변화입니다. 창이 커진 만큼, 그 안에 무엇을 어떻게 넣을지에 대한 판단이 이전보다 중요해졌습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Anthropic 공식 블로그 — “1M context is now generally available for Claude Opus 4.6 and Sonnet 4.6” (https://claude.com/blog/1m-context-ga, 2026.03.13)
  2. Claude Code Camp 실측 실험 — “I Measured Claude’s 1M Context Window” (https://www.claudecodecamp.com/p/claude-code-1m-context-window, 2026.03.13)
  3. Karo Zieminski Substack — “Claude Just Unlocked 1 Million Tokens For Everyone” (https://karozieminski.substack.com/p/claude-1-million-context-window-guide-2026, 2026.03.18)
  4. MindStudio — “What 1 Million Tokens Actually Means in Practice” (https://www.mindstudio.ai/blog/claude-1m-token-context-window-ai-agents/, 2026.03.16)

※ 본 포스팅은 2026년 3월 13일 기준으로 작성되었습니다. Anthropic의 서비스 정책·가격·UI·기능은 업데이트로 인해 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으므로, 중요한 의사결정 전에 반드시 공식 문서를 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기