Claude 100만 토큰, 무료라더니 이게 함정이었습니다

magister

Published on

2026년 3월 20일

IT/AI

2026.03.13 기준
Claude Opus 4.6 / Sonnet 4.6 기준
GA 발표 7일차 실측

Claude 100만 토큰 컨텍스트,
무료라더니 이게 함정이었습니다

추가 요금 없이 쓸 수 있다고 해서 바로 켰더니, 생각과 다른 지점이 몇 군데 있었습니다. 공식 수치와 실측 데이터를 같이 놓고 정리했습니다.

78.3%

MRCR v2 점수
(Opus 4.6, 1M 기준)

18.5%

MRCR 점수
(Sonnet 4.5, 1M 기준)

60~90초

콜드스타트
예상 대기 시간(1M)

Claude 100만 토큰 컨텍스트, 지금 무슨 일이 일어났나요

2026년 3월 13일, Anthropic이 공식 블로그를 통해 발표했습니다. Claude Opus 4.6과 Sonnet 4.6의 100만 토큰 컨텍스트 창이 정식 출시(GA)됐고, 긴 컨텍스트에 붙던 추가 요금이 사라졌습니다. (출처: claude.com/blog/1m-context-ga)

100만 토큰이라는 숫자가 얼마나 큰지를 먼저 잡아야 합니다. 일반적인 A4 페이지 한 장에 약 500~1,000토큰이 들어갑니다. 100만 토큰은 영문 소설 4~5권, 혹은 중간 규모 코드베이스 전체를 한 번에 모델에 밀어 넣을 수 있는 양입니다. 지금까지는 200K 토큰이 한계였고, 그마저도 초과하면 Claude Code가 자동으로 이전 대화를 압축(compaction)해 세부 정보를 날렸습니다.

이번 GA의 핵심 변경 사항은 세 가지입니다. 첫째, 200K 초과 구간에 붙던 가격 할증(배수)이 완전히 사라졌습니다. 둘째, 미디어 첨부 한도가 요청당 100개에서 600개(이미지·PDF 페이지 합산)로 6배 늘었습니다. 셋째, 베타 헤더 없이 200K 초과 요청이 자동 처리됩니다. Claude Code Max·Team·Enterprise 사용자는 Opus 4.6에서 1M 컨텍스트가 기본값으로 켜집니다.

💡 공식 발표문과 가격표를 같이 놓고 보니, “할증 폐지”의 의미가 단순한 할인이 아니라는 것이 보였습니다. 기존에는 200K 토큰을 단 1개라도 넘으면 전체 토큰에 2배 요금이 소급 적용됐습니다. 이 구조 자체가 바뀐 겁니다.

▲ 목차로 돌아가기

진짜로 공짜입니까? 비용 구조를 뜯어봤습니다

“표준 가격 적용”이라는 발표만 보면 무조건 좋다고 느낍니다. 그런데 실제 비용 계산을 해보면 이야기가 달라지는 지점이 있습니다. GA 이전에 존재했던 가격 구조를 먼저 확인해야 합니다.

GA 이전에는 어떤 구조였습니까

GA 이전 200K 초과 구간에는 입력 토큰에 2배, 출력 토큰에 1.5배 요금이 붙었습니다. 그리고 가장 중요한 함정은 200K를 1토큰이라도 넘는 순간 그 요청의 전체 토큰이 할증 요금으로 계산됐다는 것입니다. (출처: claudecodecamp.com 실측, 원문 보기)

구분	표준 요금 (~200K)	GA 이전 (200K 초과)	GA 이후 (전 구간)
Opus 4.6 입력	$5.00/M	$10.00/M (2×)	$5.00/M ✓
Opus 4.6 출력	$25.00/M	$37.50/M (1.5×)	$25.00/M ✓
Sonnet 4.6 입력	$3.00/M	$6.00/M (2×)	$3.00/M ✓
Sonnet 4.6 출력	$15.00/M	$22.50/M (1.5×)	$15.00/M ✓

200K 문턱을 1토큰 넘으면 얼마가 됩니까

GA 이전 구조에서 직접 계산해보면 이 숫자가 나옵니다.

199,000 토큰 (Opus 입력) = 199K × $5.00/M = $0.995
201,000 토큰 (Opus 입력) = 201K × $10.00/M = $2.010
2,000토큰 추가 비용: $1.015 → 실질 단가 $507.50/M

2,000토큰을 더 보내는 데 $1이 추가로 나갔습니다. 이걸 토큰 단가로 환산하면 표준 요금의 100배입니다. GA 이후에는 이 구조가 완전히 사라졌다는 것이 이번 발표의 실질적인 의미입니다. GPT-5.4와 Gemini 3.1 Pro는 여전히 200K(GPT), 272K(Gemini) 초과 구간에 2배 요금을 유지하고 있습니다. (출처: Martin Alderson 실측 분석, 원문 보기)

▲ 목차로 돌아가기

Sonnet 4.6은 1M에서 믿어도 됩니까

솔직히 말하면, 이 부분이 가장 걸렸습니다. 발표문에는 “Opus 4.6과 Sonnet 4.6″이 나란히 등장하지만, 두 모델의 1M 성능은 완전히 다른 이야기입니다.

Anthropic이 공식 발표에서 제시한 MRCR v2(Multi-Round Conversation Recall) 벤치마크 점수를 보면 격차가 큽니다. Opus 4.6는 1M 토큰 기준 78.3%를 기록했습니다. (출처: Anthropic 공식 블로그, claude.com/blog/1m-context-ga) 반면 이전 세대인 Sonnet 4.5의 동일 조건 점수는 18.5%였습니다. Anthropic은 Sonnet 4.6의 1M MRCR 점수를 아직 공개하지 않았습니다.

💡 공식 벤치마크와 실측 결과를 교차하니 이런 차이가 보였습니다

실측에서는 Sonnet 4.6 기준 400K 이상에서 “바늘 찾기” 정확도가 급락했습니다. 250,000토큰 이상 구간에서는 정보를 놓치거나 잘못 귀속시키는 사례가 확인됐습니다. 1M 컨텍스트 기능은 두 모델이 동시에 켜졌지만, 실제 활용 가능 범위는 다릅니다.

왜 “창이 크다”는 것과 “잘 쓴다”는 것이 다릅니까

모델은 사전 학습(pretraining) 단계에서 특정 최대 길이까지의 시퀀스를 처리하는 방법을 익힙니다. 그 이상의 길이에 대해서는 처음 보는 위치 정보를 다루게 됩니다. 거기서 성능이 떨어집니다. Gemini 1.5 Pro는 처음부터 1M 컨텍스트를 염두에 두고 사전 학습한 모델입니다. Opus 4.6와 Sonnet 4.6은 그 방향으로 크게 개선됐지만, 출발 조건이 다릅니다.

또 하나의 구조적 문제가 있습니다. 연구자들이 “lost in the middle”이라고 부르는 현상입니다. 트랜스포머 모델은 컨텍스트의 앞부분과 뒷부분에 집중하는 경향이 있고, 중간부는 상대적으로 덜 주목합니다. 1M 창을 열어놓고 중요한 정보를 중간에 배치하면 실제로 무시될 수 있습니다. 이건 모델 구조에서 나오는 특성이라 단기간에 없애기 어렵습니다. (출처: claudecodecamp.com 실측, 위 링크)

▲ 목차로 돌아가기

응답이 60초 늦는 이유가 따로 있습니다

1M 모델을 처음 켜고 대화를 시작하면, 첫 메시지 응답이 유독 느립니다. 이건 의도된 구조입니다. 원인은 두 가지입니다.

콜드스타트가 왜 이렇게 무겁습니까

Claude API는 매 요청마다 전체 컨텍스트를 다시 처리합니다. 200K 콜드스타트가 약 9초라면, 500K 콜드스타트는 약 35초입니다. 이 수치는 실측에서 확인된 것으로, 500K를 넘어서면 지연 시간이 선형이 아니라 지수에 가깝게 늘어납니다.(지수 약 1.24로 추정) 1M 콜드스타트는 60~90초로 예상됩니다. (출처: claudecodecamp.com 실측 데이터)

컨텍스트 크기	첫 토큰 대기 (캐시 적재 후)	첫 토큰 대기 (콜드스타트)
50K	~0.8초	~2초
200K	~1.6초	~9초
500K	~3.5초	~35초
1M (추정)	~5~8초 (추정)	60~90초 (추정)

캐시 만료가 진짜 문제입니다

프롬프트 캐시의 유효시간(TTL)은 5분입니다. 커피 마시러 갔다 오거나 다른 작업을 하고 6분 뒤 돌아오면, 500K 컨텍스트에서 35초, 1M에서는 60~90초 대기를 다시 맞이합니다. 긴 세션이라도 자리를 자주 비우는 작업 방식에서는 이 패널티가 반복됩니다. 캐시가 따뜻한 상태에서는 500K도 3~4초 안에 첫 토큰이 나옵니다. 이 차이가 실사용에서 경험 품질을 가릅니다.

💡 비용과 지연 시간 데이터를 같이 보니 이런 패턴이 나왔습니다. 500K 이상 세션은 캐시가 살아 있는 동안에는 빠르고 합리적이지만, 한 번 끊기면 처음과 다름없는 대기를 다시 치릅니다. 1M 창을 열어두되 세션을 끊지 않는 것이 핵심입니다.

▲ 목차로 돌아가기

어떤 상황에서 실제로 도움이 됩니까

막상 써보면 모든 작업에 1M이 필요하지 않습니다. 일반적인 Claude Code 세션은 80~120K 토큰에서 압축이 시작됩니다. 200K에도 닿지 않는 경우가 대부분입니다. 1M이 실제로 효과를 내는 상황과 오히려 역효과인 상황을 나눠서 정리했습니다.

여기서는 1M 창이 확실히 일을 합니다

코드베이스 전체를 한 번에 넣는 단발성 분석: 전체 코드베이스나 대형 문서를 한 요청에 밀어 넣고 분석하는 용도입니다. 세션 중 컨텍스트가 쌓이는 것이 아니라 처음부터 크게 시작하는 방식이라, 컨텍스트 분산이 적고 정확도가 높습니다. 한 회사의 CPO는 Opus 4.6 1M 도입 후 압축 이벤트가 15% 줄었다고 보고했습니다. (출처: Anthropic 공식 블로그 실사용 사례)

계약서·법률 문서 전체 교차 검토: 300페이지 계약서를 청크로 나눠 분석하면 페이지 간 연결이 끊깁니다. 전체 문서를 하나의 컨텍스트에 올리면 조항 간 모순을 직접 찾을 수 있습니다. 실제로 법률 도구를 만드는 팀이 이 용도로 1M을 기본값으로 설정했다고 밝혔습니다. (출처: Anthropic 공식 블로그)

Agent Teams 조율: 여러 서브 에이전트가 각자 결과를 보고할 때, 오케스트레이터 에이전트가 모든 보고를 압축 없이 유지할 수 있습니다. 이전에는 서브에이전트 결과물이 200K를 넘기면 오케스트레이터가 요약본만 받았습니다.

이 상황에서는 굳이 쓸 이유가 없습니다

일반적인 코딩 세션: 대부분의 세션은 80~120K 토큰에서 끝납니다. 1M 모델을 선택해도 표준 요금으로 과금되기 때문에 손해는 없지만, 1M 자체가 도움을 주는 상황도 아닙니다. 장기간 방치 후 재개 시 콜드스타트 패널티만 받을 수 있습니다.

Sonnet 4.6으로 400K 이상 도전: 실측 기준 Sonnet은 400K 이상에서 정확도가 뚝 떨어집니다. Sonnet 4.5의 1M MRCR 점수는 18.5%였고, Sonnet 4.6의 수치는 아직 공식 공개되지 않았습니다. 400K 이상 컨텍스트 작업은 Opus 4.6을 쓰는 것이 맞습니다.

자주 자리를 비우는 작업 흐름: 캐시 TTL이 5분입니다. 자주 전환하는 작업 방식이라면 500K 이상 세션에서 매번 30초 이상 대기가 반복됩니다. 이 경우 세션을 짧게 나눠 사용하는 편이 낫습니다.

▲ 목차로 돌아가기

Q&A

Q1. Claude Code에서 1M 컨텍스트를 어떻게 켭니까?

Claude Code에서 /model opus[1m] 또는 /model sonnet[1m]을 입력하거나 모델 선택기에서 [1m] 옵션을 고르면 됩니다. Claude Code Max·Team·Enterprise 사용자는 Opus 4.6에서 자동 기본값으로 이미 켜져 있습니다. API 사용자는 베타 헤더 없이 200K 초과 요청이 자동 처리됩니다. (출처: Anthropic 공식 블로그 2026.03.13)

Q2. Gemini도 1M이었는데 이번 발표가 의미 있습니까?

Gemini 1.5 Pro는 처음부터 1M을 목표로 사전 학습한 모델입니다. 그 세대에서 높은 정확도를 보였던 것도 그 때문입니다. 반면 현재의 Gemini 3 Pro(최신 세대)의 MRCR v2 점수는 26.3%로 낮습니다. 다른 세대, 다른 측정 조건이라는 점을 감안해야 합니다. 단순히 “몇 토큰을 지원한다”가 아니라, 그 길이에서 실제로 정보를 얼마나 정확하게 유지하는지가 중요합니다. (출처: Anthropic MRCR v2 벤치마크, claudecodecamp.com 실측)

Q3. $20 Pro 요금제에서도 1M을 쓸 수 있습니까?

Claude.ai 웹 인터페이스에서는 확인이 필요합니다. 공식 발표에서 1M GA는 “Claude Platform(API), Amazon Bedrock, Google Vertex AI, Microsoft Foundry”를 명시했고, Claude Code Max·Team·Enterprise를 언급했습니다. $20 Pro 플랜에서의 포함 여부는 공식 가격 문서(claude.com/pricing)에서 직접 확인하시기 바랍니다.

Q4. 1M 창을 켜면 캐시 비용도 올라갑니까?

GA 이후 200K 이하 구간과 초과 구간 모두 같은 캐시 요금이 적용됩니다. Opus 4.6 기준 캐시 읽기 $0.50/M, 캐시 쓰기 $6.25/M입니다. GA 이전에는 200K 초과 시 이 요금에도 2배 할증이 붙었지만 지금은 없습니다. 다만 fast mode는 별도 요금 체계($30/$150/M 입출력)가 적용되며 Max 구독 사용량 포함이 아닙니다.

Q5. 1M 컨텍스트가 RAG를 대체합니까?

완전히는 아닙니다. 단발성 대용량 문서 분석에서는 전체 컨텍스트를 올리는 방식이 청킹 기반 RAG보다 유리할 수 있습니다. 그러나 멀티턴 대화가 누적되는 긴 세션에서는 컨텍스트 분산이 생기고, 정보 밀도가 떨어집니다. 특히 Sonnet 4.6의 400K 이상 정확도 문제가 해결되지 않은 상황에서, 정밀도가 필요한 대규모 검색·요약 작업에는 RAG 파이프라인을 병행하는 것이 현 시점 더 안전합니다.

▲ 목차로 돌아가기

마치며

이번 GA 발표의 핵심은 숫자(100만 토큰)보다 가격 구조의 변화입니다. 200K를 넘으면 전체 토큰에 할증이 소급 적용되던 구조가 사라진 것, GPT-5.4와 Gemini 3.1 Pro가 여전히 유지하는 할증 정책을 Anthropic이 먼저 없앤 것, 이게 실질적인 내용입니다.

그러나 “무료”라는 표현이 만드는 기대와 실제 사이에는 간격이 있습니다. Sonnet 4.6의 1M 정확도는 아직 공식 수치가 없고, 콜드스타트 대기는 1M에서 60~90초로 추정됩니다. 중요한 정보를 컨텍스트 중간에 배치하면 모델이 놓칠 수 있다는 구조적 특성도 바뀌지 않았습니다.

막상 써보면 이게 핵심입니다. 대용량 문서나 코드베이스를 단발성으로 통째로 넣는 용도라면 1M는 이전 세대의 어떤 방법보다 낫습니다. 매일 반복되는 일반 세션에서는 세션 관리가 여전히 중요합니다. 이 둘을 구분해서 쓰는 것이 지금 시점의 가장 현실적인 사용법입니다.

본 포스팅 참고 자료

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 수치 및 가격 정보는 2026년 3월 13일 Anthropic 공식 발표 기준이며, 최신 정보는 공식 가격 페이지에서 확인하시기 바랍니다.

Anthropic API 요금, Claude 100만 토큰, Claude Code 요금, Claude 컨텍스트 윈도우, Claude Opus 4.6

Claude 100만 토큰, 무료라더니 이게 함정이었습니다

Claude 100만 토큰 컨텍스트,
무료라더니 이게 함정이었습니다

Claude 100만 토큰 컨텍스트, 지금 무슨 일이 일어났나요