Claude 1M 토큰, 쓸 수 있는 사람이 따로 있습니다

Published on

in

Claude 1M 토큰, 쓸 수 있는 사람이 따로 있습니다

2026.03.13 정식 출시 기준
Opus 4.6 / Sonnet 4.6

Claude 1M 토큰,
쓸 수 있는 사람이 따로 있습니다

Anthropic이 2026년 3월 13일, Claude Opus 4.6과 Sonnet 4.6의 100만 토큰 컨텍스트 윈도우를 추가 요금 없이 정식 개방했습니다. 그런데 “무료로 다 된다”는 말을 곧이곧대로 믿으면, 실제로는 돈이 더 나가거나 정확도가 뚝 떨어지는 경우가 생깁니다. MRCR 벤치마크 수치와 실측 latency 데이터를 놓고 직접 살펴봤습니다.

MRCR v2 @ 1M
78.3%
Opus 4.6 정확도
Sonnet 4.5 비교
18.5%
1M에서 급락
경쟁사 대비
3배↑
GPT-5.4(36.6%) 대비

“무료”가 맞긴 한데, 조건이 있습니다

Anthropic이 공식 발표한 내용은 명확합니다. Opus 4.6은 입력 토큰 $5/M, 출력 $25/M, Sonnet 4.6은 입력 $3/M, 출력 $15/M — 이 단가가 컨텍스트 크기와 무관하게 1M 전 구간에 균일하게 적용됩니다. (출처: Anthropic 공식 pricing 페이지, 2026.03.13) 기존에는 200K를 넘으면 입력 단가가 2배로 뛰었으니 이건 진짜 큰 변화입니다.

단, “무료”는 추가 요금이 없다는 뜻이지, 토큰 자체가 공짜라는 뜻이 아닙니다. 1M 토큰 분량을 Opus 4.6으로 한 번 요청하면 입력만 $5입니다. 매 대화 턴마다 전체 컨텍스트를 API에 재전송하는 Claude Code 구조에서 대화가 길어지면 비용이 순식간에 불어납니다. Claude Code를 구독으로 쓰는 Max·Team·Enterprise 사용자는 요금제 사용량 내에서 1M이 기본 적용되지만, 직접 API를 호출하는 경우엔 토큰 단가가 그대로 청구됩니다.

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — API를 직접 쓰는 개발자와 Claude Code 구독자는 체감이 완전히 다릅니다. “무료 확장”이라는 표현은 구독자 관점에서만 정확합니다.

* 베타 기간엔 anthropic-beta: long-context-2025-01-01 헤더가 필요했지만, 정식 출시 이후로는 헤더 없이 작동합니다.

▲ 목차로 돌아가기

1M 토큰이 실제로 얼마나 되는 양인가요

1M 토큰은 대략 75만 단어, A4 기준으로 약 1,500~2,000페이지 분량입니다. 웬만한 장편소설 4~5권, 또는 중간 규모 코드베이스 전체를 한 번에 집어넣을 수 있는 크기입니다. (출처: MindStudio AI, “Claude 1M Token Context Window”, 2026.03.17)

이미지와 PDF 제한도 크게 늘었습니다. 이전엔 요청당 최대 100장이었는데, 이번 정식 출시와 함께 600장으로 6배 확장됐습니다. 300페이지짜리 계약서 2권을 한 번에 올려서 “이 중에서 상충하는 조항을 찾아줘”라고 할 수 있게 된 셈입니다. 실무에서 문서 작업이 많은 법무·컴플라이언스·금융 분야라면 체감이 클 겁니다.

분량 기준 200K 토큰 1M 토큰
단어 수 (영문 기준) 약 15만 단어 약 75만 단어
A4 페이지 수 300~400페이지 1,500~2,000페이지
이미지·PDF 제한 100장 600장
Claude Code compaction 시점 약 134K 사용 시 약 802K 사용 시

* Claude Code는 컨텍스트의 약 83.5%에서 compaction을 트리거하며, 약 33K 토큰을 버퍼로 예약합니다. (출처: paddo.dev, “Context Stops Being Scarce”, 2026.03.16)

▲ 목차로 돌아가기

Gemini가 먼저 했는데 왜 지금 난리일까요

Google Gemini 1.5 Pro는 2024년 2월에 이미 1M 토큰을 지원했습니다. “그러면 Claude가 뒤늦게 따라한 것 아닌가?” 싶지만, 토큰 수 자체보다 그 토큰을 실제로 얼마나 잘 쓰는지가 중요합니다.

Anthropic이 공개한 MRCR v2(Multi-Round Coreference Resolution) 벤치마크를 보면 수치가 꽤 극단적입니다. 1M 토큰 전체 구간에서의 정보 인출 정확도를 비교하면, Opus 4.6은 78.3%인데 GPT-5.4는 36.6%, Gemini 3.1 Pro는 25.9%에 그쳤습니다. (출처: Bay Area Times, Anthropic 공식 발표 기반, 2026.03.13) 즉, GPT-5.4는 1M 문서에서 질문하면 세 번 중 두 번은 엉뚱한 답을 낸다는 뜻입니다. 숫자만 크고 실제로 활용이 안 되는 상황입니다.

💡 1M 지원 모델이 여러 개인데 왜 비교가 필요한지 들여다보니 — GPT-5.4는 256K에서 1M으로 가면서 정확도가 54%p 떨어지는 반면, Opus 4.6은 256K 기준 93%에서 1M에서 78.3%로 약 15%p 하락에 그칩니다. 숫자 하나로 맥락이 달라집니다.

또 하나의 차이점은 가격 구조입니다. GPT-5.4는 입력 272K를 넘으면 단가가 $2.5/M에서 $5/M으로 2배가 됩니다. Gemini 3.1 Pro도 200K 초과 시 $2/M에서 $4/M으로 오릅니다. Claude만 1M 전 구간 단가를 동일하게 유지하는 구조입니다. (출처: Martin Alderson, “Why Claude’s new 1M context length is a big deal”, 2026.03.15)

▲ 목차로 돌아가기

Sonnet으로 쓰면 오히려 손해인 이유

이 부분이 많은 사람이 놓치는 포인트입니다. 1M이 됐다고 해서 모든 모델이 1M을 잘 쓰는 건 아닙니다. 실측 실험에서 Opus 4.6은 600K 컨텍스트 지점에서도 정보를 꽤 잘 찾아냈지만, Sonnet 4.5는 400K에서 이미 불안정해지고 600K에서는 사실상 검색이 안 됐습니다. (출처: Claude Code Camp, “Claude Code 1M Context Window: Cost, Limits, and When to Use It”, 2026.03.13)

MRCR 8-needle 변형 테스트에서 Opus 4.6은 76%를 기록했지만 Sonnet 4.5는 18.5%였습니다. 아직 Sonnet 4.6의 공식 MRCR 점수는 발표되지 않은 상태입니다. Sonnet 4.6이 4.5보다 나을 수는 있지만, 수치가 공개되기 전까지는 대용량 문서 작업에 Sonnet을 기본으로 쓰는 건 조심스럽습니다.

⚠️ 주의: Sonnet 4.5를 1M 컨텍스트로 사용하면 표준 단가(Opus보다 저렴)로 쓰더라도, 정확도가 18.5%에 불과해 긴 문서에서는 사실상 제대로 된 답을 기대하기 어렵습니다. 비용 대비 가치가 없습니다.

또 하나 알아둘 것이 있습니다. 대화 길이와 컨텍스트 크기는 다릅니다. 일반적인 Claude Code 세션은 대부분 80~120K 범위에서 compaction이 발생하고, 실제로 200K를 넘기는 경우가 많지 않습니다. “이제 1M이 됐으니 무조건 1M 모드로 설정해야지”라고 생각할 필요는 없습니다. 단순 작업에서 굳이 1M 모델을 선택해도 200K 미만이면 표준 단가 그대로이긴 하지만, 선택 자체가 의미 없는 상황입니다.

▲ 목차로 돌아가기

응답 속도가 문제가 되는 상황이 있습니다

실측 데이터로 확인된 latency 패턴을 보면, 캐시가 차가운 상태(cold start)에서 컨텍스트 크기별 첫 번째 응답 시작까지의 시간이 크게 달라집니다. 200K에서 약 9초, 500K에서는 약 35초가 걸립니다. 1M까지 외삽하면 60~90초를 예상할 수 있습니다. (출처: Claude Code Camp, 실측 실험 데이터, 2026.03.13)

반면 캐시가 따뜻한 상태(warm cache)에서는 500K에서도 약 3.5초 수준으로 빠릅니다. 캐시가 5분 TTL로 작동하기 때문에, 작업 중간에 5분 이상 자리를 비우고 오면 캐시가 만료돼서 다음 메시지에서 cold start 패널티가 다시 적용됩니다.

💡 “중간에 커피 한 잔 다녀오면 된다”가 500K 컨텍스트에서는 30초 대기로 돌아옵니다. 1M이 실시간 응답이 필요한 채팅 인터페이스보다 배치·비동기 작업에 맞는 이유입니다.

컨텍스트 크기 Cold start TTFT Warm cache TTFT
50K 약 2초 약 0.8초
200K 약 9초 약 1.6초
300K 약 16초 약 2.2초
500K 약 35초 약 3.5초

* Claude Code Camp 실측 실험 기준. 네트워크 환경에 따라 다를 수 있음. Tier 4 액세스 계정 기준 실행.

▲ 목차로 돌아가기

실제로 쓸 이유가 생기는 경우 vs 안 쓰는 게 나은 경우

✅ 이럴 때는 1M이 진짜 도움이 됩니다

대용량 문서 단일 요청 분석: 계약서 수십 건이나 대형 코드베이스를 통째로 넣고 한 번에 처리하는 방식입니다. 대화를 여러 턴 이어가는 게 아니라 한 번에 쏘고 결과를 받는 single-shot 구조라서 context rot 영향이 적습니다.

Claude Code 장기 디버깅 세션: 여러 파일에 걸친 버그를 추적할 때 compaction이 일어나면 “앞에서 왜 A 방식을 포기했는지”를 다시 설명해야 합니다. 1M이면 compaction 없이 작업 맥락 전체를 유지할 수 있습니다. Anthropic CPO Jon Bell은 1M 전환 후 compaction 이벤트가 15% 감소했다고 밝혔습니다. (출처: paddo.dev 인용, 2026.03.16)

멀티 에이전트 오케스트레이션: 각 서브에이전트가 작업 결과를 쌓아올리면 컨텍스트가 급격히 늘어납니다. 1M이면 오케스트레이터 에이전트가 더 오래 맥락을 유지할 수 있습니다.

❌ 이럴 때는 굳이 1M을 고집할 필요가 없습니다

일반적인 일상 코딩 세션: 대부분의 세션은 80~120K에서 끝납니다. 1M 모드를 켜도 200K 미만이면 단가가 같습니다. 단지 선택 자체가 불필요합니다.

중간에 자주 자리를 비우는 상황: 5분마다 캐시가 만료됩니다. 500K 컨텍스트에서 캐시가 깨지면 다음 메시지에 35초 대기가 발생합니다. 집중해서 붙어 있는 작업이 아니라면 오히려 불편합니다.

“중간에 있는 정보”에 의존하는 작업: lost-in-the-middle 현상은 Opus 4.6도 예외가 아닙니다. Liu et al.(2024) 연구에서 관련 정보가 컨텍스트 가운데 있을 때 성능이 30% 이상 떨어지는 U자형 패턴이 확인됐습니다. 핵심 정보를 프롬프트 맨 앞이나 맨 뒤에 배치하는 게 좋습니다.

▲ 목차로 돌아가기

자주 나오는 질문들

Claude.ai 웹에서도 1M이 적용되나요?
Claude.ai 채팅 인터페이스에서는 Pro 플랜 이상 사용자에게 일부 적용됩니다. 그런데 실질적으로 1M 분량의 문서를 웹 채팅으로 올리는 경우는 거의 없어서, 이 혜택이 가장 직접적으로 체감되는 건 Claude Code나 API 직접 호출 환경입니다.
90% 정확도라는 수치, 믿어도 되나요?
Anthropic이 발표한 90% 수치는 “이 벤치마크에서” 달성한 결과입니다. 자사에 유리한 벤치마크를 선택하는 경향은 모든 AI 기업이 공통적으로 보입니다. 독립 실측에서는 MRCR v2 기준 78.3%가 확인됐습니다. 즉, 100건 중 약 22건은 오류가 날 수 있는 구조입니다. 정밀도가 중요한 법률·의료·금융 작업이라면 출력 검증 단계를 별도로 설계해야 합니다.
RAG를 이제 안 써도 되는 건가요?
수백만 건 이상의 방대한 문서 전체를 1M에 담는 건 불가능합니다. 기업 내부 DB 전체를 맥락으로 쓰려면 여전히 RAG가 필요합니다. 다만 RAG로 관련 문서를 추려낸 뒤, 그 결과물을 청킹(chunking) 없이 통째로 넣을 수 있게 됐습니다. “RAG 폐기”가 아니라 “RAG 간소화”에 가깝습니다.
Claude Code에서 1M 모드는 어떻게 켜나요?
Claude Code 터미널에서 /model opus[1m] 또는 /model sonnet[1m]을 입력하면 됩니다. Max, Team, Enterprise 계정이라면 모델 선택 화면에 해당 옵션이 표시됩니다. API 직접 호출 시에는 별도 베타 헤더가 더 이상 필요 없습니다.
Gemini 3.1 Pro도 1M인데, 굳이 Claude를 써야 하나요?

▲ 목차로 돌아가기

마치며

솔직히 말하면, 1M 토큰이 필요한 상황은 생각보다 특수합니다. 일상적인 코딩이나 문서 작업에서 200K를 꽉 채우는 경우도 흔치 않습니다. 그런데 그 특수한 상황 — 수백 페이지짜리 계약서 비교, 대규모 코드베이스 리팩터링, 장시간 에이전트 루프 — 에서는 이게 진짜 게임체인저입니다.

핵심을 정리하면 세 가지입니다. 첫째, 1M을 쓸 거라면 Opus 4.6이 유일한 현실적인 선택지입니다. Sonnet 4.5는 1M에서 18.5%로 사실상 못 씁니다. 둘째, “추가 요금 없다”는 표현은 200K 초과 시 붙던 2x 할증이 사라졌다는 뜻이지, 토큰 비용 자체가 없어졌다는 뜻이 아닙니다. 셋째, 컨텍스트 중간에 있는 정보는 여전히 놓칩니다. 핵심 정보는 앞이나 뒤에 두는 습관이 1M 환경에서도 유효합니다.

GPT-5.4는 272K 초과 시 2x 요금, Gemini 3.1 Pro는 200K 초과 시 2x — 경쟁사가 여전히 할증을 붙이는 구간에서 Claude가 먼저 문을 열었습니다. 이게 얼마나 오래 유지될지는 모르겠지만, 지금 당장 대용량 문서 작업이 있는 팀이라면 한 번 실험해볼 가치는 충분히 있습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Anthropic 공식 Pricing 페이지 — https://www.anthropic.com/pricing
  2. Generation Digital, “1M Context Window: Opus 4.6 & Sonnet 4.6 Pricing” — https://www.gend.co/blog/1m-context-opus-4-6-sonnet-4-6-standard-pricing
  3. MindStudio AI, “Claude 1M Token Context Window” (2026.03.17) — https://www.mindstudio.ai/blog/claude-1m-token-context-window-ai-agents/
  4. Martin Alderson, “Why Claude’s new 1M context length is a big deal” (2026.03.15) — https://martinalderson.com/posts/why-claudes-new-1m-context-length-is-a-big-deal/
  5. Claude Code Camp, “Claude Code 1M Context Window: Cost, Limits, and When to Use It” (2026.03.13) — https://www.claudecodecamp.com/p/claude-code-1m-context-window
  6. paddo.dev, “Context Stops Being Scarce” (2026.03.16) — https://paddo.dev/blog/million-token-context/

본 포스팅은 2026년 3월 26일 기준 공개된 공식 자료를 바탕으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 특히 AI 서비스는 업데이트 주기가 빠르므로 최신 내용은 Anthropic 공식 채널에서 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기