Claude Opus 4.6 / Sonnet 4.6
Claude Code 1M Context,
숫자로 따져봤습니다
2026년 3월 13일, Anthropic이 Claude Opus 4.6과 Sonnet 4.6에 100만 토큰 컨텍스트 창을 정식 출시(GA)했습니다. 이전까지 베타로 제공되던 기능이 이제 별도 헤더 없이 기본 적용됩니다. “크면 비싸다”는 통념과 달리, 공식 문서와 실사용 데이터를 같이 놓고 보니 꽤 다른 그림이 나왔습니다.
1M 토큰이 실제로 얼마짜리인지 계산해봤습니다
Claude Code 1M Context의 포커스키워드가 먼저 눈에 들어왔던 이유는 단순히 “크다”가 아니라 가격 구조가 바뀌었기 때문입니다. Opus 4.6 기준으로 입력 토큰 $5/100만 토큰, 출력 토큰 $25/100만 토큰입니다. (출처: Anthropic 공식 블로그, 2026.03.13)
실제로 100만 토큰을 풀로 채우는 세션을 계산해보면 이렇습니다. 입력 900K + 출력 100K짜리 세션 하나를 돌린다고 가정하면 입력비용 $4.50 + 출력비용 $2.50 = 합계 $7.00. 환율 1,450원 적용 시 약 10,150원입니다. 한 번의 세션에서 소설 4~5권 분량을 통째로 분석하는 비용이 커피 두 잔 값이라는 뜻입니다.
이전에는 200K 초과 토큰에 2배 추가 요금이 붙었습니다. 즉 Sonnet 4.6으로 300K 토큰을 쓰면 처음 200K는 $0.60, 나머지 100K는 $0.60이 아니라 $1.20이 청구됐습니다. 이 구조가 3월 13일부로 완전히 사라졌습니다. (출처: Anthropic 공식 블로그 1M Context GA, 2026.03.13)
이게 실생활에서 어떤 의미냐면, 기존에 대규모 코드베이스 분석 요청을 쪼개서 보내던 개발자들이 이제 한 번에 통째로 넣어도 예전보다 비용이 낮아지는 경우가 생긴다는 것입니다. 이유는 다음 섹션에서 자세히 설명합니다.
컨텍스트가 길면 더 비싸다는 건 옛날 얘기입니다
많은 분들이 “컨텍스트를 길게 유지할수록 토큰이 기하급수적으로 소모된다”고 알고 있습니다. 맞는 말이기도 하고, 이제는 틀린 말이기도 합니다. 상태가 없는(stateless) 프로토콜 특성상 매 턴마다 전체 대화 히스토리를 다시 보내기 때문에 누적량은 분명 늘어납니다.
그런데 여기서 프롬프트 캐싱(Prompt Caching)이 핵심입니다. 이미 한 번 전송한 토큰은 캐시 히트 시 정가의 약 10% 요금으로 재사용됩니다. Sonnet 4.6의 경우 캐시 히트 입력 토큰은 $0.30/100만 토큰(정상가 $3의 10%)입니다. (출처: Anthropic 공식 블로그, 2026.03.13)
시나리오 A — 단일 900K 세션 유지: 첫 턴에 200K 전액 지불 후, 이후 턴에서 기존 200K는 캐시로 재사용(10% 요금). 세션 전체 평균 비용 ↓
시나리오 B — 450K × 2 세션 분할: 두 번째 세션 시작 시 이전 컨텍스트를 다시 전액 청구. 게다가 중간에 컨텍스트 압축(compaction)까지 발생.
한 실사용자는 “세션을 이어가니 토큰 사용량이 89% 감소했다”고 보고했습니다. (출처: Reddit r/ClaudeCode 스레드, 2026.03.13)
단, 이것은 세션을 끊지 않고 계속 이어간다는 조건 하에서의 얘기입니다. 자리를 비우면 어떤 일이 생기는지는 섹션 4에서 따로 다룹니다.
Gemini도 1M인데, 왜 클로드가 다릅니까
“Gemini도 오래전부터 1M 컨텍스트였잖아요”라는 반응이 당연히 나옵니다. 맞습니다. Google은 일찌감치 100만 토큰을 지원했습니다. 그런데 컨텍스트 창의 크기와, 그 창 안에서 얼마나 정확하게 정보를 추적하느냐는 완전히 다른 문제입니다.
출처: Anthropic 공식 블로그 1M Context GA (2026.03.13) / aitoolranked.com 분석 (2026.03.16) / martinalderson.com 분석 (2026.03.15)
MRCR v2(Multi-Round Coreference Resolution)는 모델이 100만 토큰 분량의 문서 안에서 특정 개체와 관계를 얼마나 정확하게 추적하는지를 측정하는 벤치마크입니다. Opus 4.6이 78.3%를 기록한 반면, GPT-5.4와 Gemini 3.1 Pro는 256K 토큰을 넘어서면 정확도가 50% 이하로 떨어진다는 제3자 분석이 나왔습니다. (출처: martinalderson.com, 2026.03.15)
쉽게 말해 Gemini와 GPT-5.x도 물리적으로 1M 토큰을 받아들이긴 하지만, 창고가 크다고 물건을 다 기억하는 건 아닙니다. 500페이지 계약서 묶음을 한 번에 넣어도 500페이지 전체에서 일관된 답을 뽑아낼 수 있어야 의미가 있다는 얘기입니다.
5분 자리 비우면 돈이 나갑니다 — 캐시 TTL 함정
1M 컨텍스트의 비용 효율은 캐싱을 전제로 합니다. 그런데 캐시에는 TTL(Time-To-Live), 즉 유효 시간이 있습니다. Anthropic의 프롬프트 캐싱 정책상 5분 비활동 이후 캐시가 만료됩니다.
Sonnet 4.6으로 200K 토큰 세션을 진행 중, 10분 자리를 비운 뒤 재개할 경우:
• 캐시 만료 → 다음 메시지에서 200K 토큰 재읽기 발생
• 재캐시 비용: $3.75/100만 토큰 × 0.2M = $0.75 (약 1,088원) 단발 청구
• 캐시가 살아있었다면 동일 조건에서 $0.06 (약 87원)
→ 같은 작업에 12.5배 차이가 납니다.
Opus 4.6으로 올라가면 규모도 커집니다. 200K 토큰 Opus 세션에서 5분 초과 후 재접속 시 재캐시 비용은 $5/100만 × 0.2M = $1.00 (약 1,450원) 단발입니다. 이게 크게 느껴지지 않을 수 있는데, 하루에 세 번만 이런 일이 생기면 추가 비용이 $3(약 4,350원)씩 쌓입니다.
실질적으로 대응할 수 있는 방법은 단순합니다. 집중 작업 중에는 세션을 끊지 말고, 잠깐 자리를 비울 예정이라면 현재 컨텍스트 크기를 대략 확인한 뒤 필요하면 의도적으로 세션을 정리하고 새로 시작하는 편이 낫습니다. TTL 만료 직전에 간단한 “계속” 메시지를 보내는 방식으로 캐시를 연장하는 것도 커뮤니티에서 공유된 방법이지만 확인이 필요한 항목입니다.
코드보다 계약서가 1M을 더 필요로 하는 이유
개발자들에게 1M 컨텍스트가 주목받지만, 실제로 컨텍스트 압축(compaction)의 피해를 더 크게 받는 분야는 법률·계약·금융 문서 쪽입니다. 이유가 있습니다.
소스코드는 본질적으로 모듈화되어 있습니다. 함수 하나, 클래스 하나 단위로 분리가 되고, “이 부분만 발췌”하더라도 의미가 살아있는 경우가 많습니다. 반면 계약서는 다릅니다. 조항 18-B의 예외 조건이 조항 3-A의 정의를 참조하고, 그 정의가 다시 부록 C의 표를 가리키는 구조에서는 어느 한 부분이라도 압축되거나 누락되면 해석 오류가 생깁니다. (출처: martinalderson.com, 2026.03.15)
법률 AI 플랫폼 Eve의 ML 엔지니어 Mauricio Wulfovich는 “400페이지짜리 공술서 전체를 한 세션에 올려두는 게 기본 설정”이라고 밝혔습니다. 이전에는 이게 불가능했거나 분할 처리 과정에서 맥락을 잃었습니다. 한편 소프트웨어 엔지니어 Anton Biryukov는 “Datadog·Braintrust·DB·소스코드를 동시에 검색하고 재검색하면서 엣지 케이스를 집계한다”고 설명했습니다. 같은 기능이지만 사용 방식의 밀도가 완전히 다릅니다. (출처: Anthropic 공식 블로그 1M Context GA, 2026.03.13)
즉 1M 컨텍스트를 “코딩 도구 업그레이드” 정도로만 이해하면 절반만 본 겁니다. RAG(검색증강생성) 아키텍처를 구성해야 처리 가능했던 대용량 문서 분석이 이제 단순 프롬프트 삽입으로 대체 가능해졌다는 쪽이 더 큰 변화입니다.
Max·Team·Enterprise 플랜별로 다릅니다
API가 아닌 Claude Code 구독 플랜을 사용하는 경우, 1M 컨텍스트 적용 여부가 플랜마다 다릅니다. 이 부분이 공식 발표에서 명확하게 구분되어 있습니다.
출처: Anthropic 공식 블로그 1M Context GA (2026.03.13)
Pro 플랜($20/월) 사용자는 1M 컨텍스트가 포함되지 않습니다. “Claude 3월 프로모션으로 사용량이 2배라는데 1M도 되는 거 아닌가요?”라는 질문이 나올 수 있는데, 사용량 한도와 컨텍스트 창 크기는 별개입니다. Pro 플랜에서 1M을 쓰려면 API를 직접 연동해야 합니다.
API 연동 방식에서는 claude-opus-4-6 또는 claude-sonnet-4-6 모델 ID를 그대로 사용하면 되고, 베타 헤더가 필요 없습니다. 200K 초과 요청도 별도 설정 없이 자동으로 처리됩니다. (출처: Anthropic 공식 블로그, 2026.03.13)
Q&A
마치며 — 실제로 써야 하는 사람과 아닌 사람
솔직히 말하면, 1M 컨텍스트는 모든 사용자에게 당장 필요한 기능은 아닙니다. 단발성 질문이나 짧은 코드 작업 위주라면 차이를 느끼기 어렵습니다. 그러나 다음 중 하나에 해당된다면 지금 바로 테스트해볼 가치가 있습니다.
실익이 있는 경우: 수십 개 파일에 걸친 코드베이스 리팩터링, 대형 계약서 다수를 교차 분석하는 법무 업무, 긴 에이전트 세션에서 compaction으로 인한 반복 작업이 자주 발생하는 개발 파이프라인.
주의가 필요한 경우: Pro 플랜에서 Claude Code를 쓰고 있다면 1M이 적용되지 않습니다. API 직접 연동 없이는 Max 이상 플랜이 필요합니다. 그리고 캐시 TTL 5분 제한은 사용 패턴에 따라 예상 밖의 비용을 만들 수 있습니다.
이번 GA에서 가장 인상 깊었던 부분은 추가 요금 없이 기본 요율을 그대로 유지했다는 점입니다. “1M이면 비쌀 것”이라는 예상이 틀렸고, 오히려 장시간 세션에서는 기존 방식보다 저렴해질 수 있다는 건 공식 수치로 확인된 사실입니다. 다만 이 효율은 세션을 끊지 않고 유지한다는 조건 위에서만 성립한다는 점, 꼭 기억해두세요.
📎 본 포스팅 참고 자료
- Anthropic 공식 블로그 — “Introducing 1M Context GA” https://claude.com/blog/1m-context-ga (2026.03.13)
- Anthropic Claude 공식 문서 — Context Windows https://platform.claude.com/docs/en/build-with-claude/context-windows
- Reddit r/ClaudeCode — “Does the new 1M context window cost more?” https://www.reddit.com/r/ClaudeCode/comments/1rsva0y/ (2026.03.13)
- martinalderson.com — “Why Claude’s new 1M context length is a big deal” https://martinalderson.com/posts/why-claudes-new-1m-context-length-is-a-big-deal/ (2026.03.15)
- AIToolRanked — “Claude 1M Context GA 2026: No Premium Pricing Breakdown” https://aitoolranked.com/blog/claude-1m-context-ga-2026-opus-sonnet-no-premium-pricing (2026.03.16)
본 포스팅은 2026년 3월 18일 기준으로 작성되었습니다. Anthropic의 서비스 정책·UI·기능·가격은 업데이트로 인해 언제든지 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으므로, 최신 정보는 반드시 공식 Anthropic 문서에서 직접 확인하세요.


댓글 남기기