Claude Opus 4.6 · Sonnet 4.6
IT/AI
Claude 1M context, 4가지 수치로 직접 확인했습니다
2026년 3월 13일, Anthropic이 Claude Opus 4.6·Sonnet 4.6의 100만 토큰 컨텍스트 창을 정식 출시했습니다. “추가 요금 없다”는 발표가 화제를 모았는데, 실제로 공식 문서와 실측 데이터를 놓고 보니 그게 전부가 아니었습니다.
“추가 요금 없음”이 전부가 아닌 이유
Anthropic의 공식 블로그 발표 문구는 이렇습니다. “One price, full context window. No long-context premium.” (출처: Anthropic 공식 블로그, 2026.03.13) 이걸 읽으면 누구나 ‘이제 1M 토큰 써도 돈이 똑같이 나가는구나’라고 생각합니다.
💡 공식 발표문과 실제 API 청구 구조를 같이 놓고 보니 이런 차이가 보였습니다
이 “추가 요금 없음”은 Claude.com 구독 플랜(Max/Team/Enterprise)에 해당하는 이야기입니다. API를 직접 쓰는 개발자라면 여전히 200K 토큰 초과 시 입력 단가가 2배로 오릅니다. 두 가지 이야기가 동시에 사실입니다.
실측 실험(claudecodecamp.com 기준, 2026.03.13 업데이트)에서 확인된 API 가격 구조는 이렇습니다.
| 모델 | 표준 입력 (200K 이하) | 장문 입력 (200K 초과) | 배율 |
|---|---|---|---|
| Opus 4.6 | $5.00/M | $10.00/M | 2× |
| Opus 4.6 출력 | $25.00/M | $37.50/M | 1.5× |
| Sonnet 4.6 | $3.00/M | $6.00/M | 2× |
| Sonnet 4.6 출력 | $15.00/M | $22.50/M | 1.5× |
(출처: claudecodecamp.com 실측 실험, 2026.03.13 업데이트 기준)
더 주목할 점이 있습니다. 200K를 1토큰이라도 넘으면 그 이전 토큰 전부에 장문 요금이 소급 적용됩니다. 199K 토큰짜리 요청과 201K 토큰짜리 요청의 비용 차이는 단 2,000토큰 때문에 약 2배가 납니다. API 개발자라면 반드시 알아야 할 구조입니다.
반면 Claude Code의 Max·Team·Enterprise 구독자라면 이야기가 다릅니다. Opus 4.6 세션이 자동으로 1M 컨텍스트를 사용하고, 이전에는 별도 추가 사용량으로 청구되던 것이 이제 구독 요금에 포함됩니다. (출처: Anthropic 공식 블로그, 2026.03.13)
Pro 구독자는 Claude Code에서 /extra-usage 명령을 직접 입력해야 활성화됩니다. 이유는 Anthropic이 공식 답변을 내놓지 않은 부분이지만, 수익 구조상 업그레이드 유도용 마찰로 읽힙니다.
100만 토큰이 실제로 얼마나 큰가
“100만 토큰”이라는 숫자는 직관적이지 않습니다. 공식 발표 기준으로 환산하면 이렇습니다.
한국어는 약 40~50만 단어
(기존 100개 → 6배 확대)
(출처: Anthropic 공식 블로그, 2026.03.13 / karozieminski.substack.com)
이전 Claude의 표준 창은 약 200K 토큰이었습니다. 이번 GA로 5배가 됐습니다. 실제로 어떤 변화가 생기냐면, Claude Code에서 대형 코드베이스를 검색하고 데이터베이스를 조회하면서 100K 토큰을 훌쩍 넘기던 작업이, 이제는 압축(compaction) 없이 한 세션에서 끝납니다.
Anthropic이 직접 공개한 수치로는, 1M 컨텍스트 적용 이후 Claude Code의 압축 이벤트가 15% 감소했습니다. (출처: Anthropic 공식 블로그, 2026.03.13) 수치만 보면 작아 보이지만, 압축이 발생할 때 잘려나가는 건 항상 “방금 전 내린 판단”이라는 걸 떠올리면 체감 차이는 훨씬 큽니다.
💡 미디어 한도 6배 확대가 숨은 핵심입니다
이번 GA에서 조용히 바뀐 것 중 하나가 미디어 한도입니다. 이미지·PDF 첨부가 세션당 100개에서 600개로 늘었습니다. (출처: Anthropic 공식 블로그, 2026.03.13) 법률 문서 검토나 대용량 리포트 분석처럼 이미지·PDF가 섞인 작업에서 이 변화가 즉각 체감됩니다.
Opus와 Sonnet, 같은 창 다른 실력
솔직히 말하면, 이 부분이 이번 GA에서 가장 중요한 포인트입니다. Claude 1M context라고 하면 Opus 4.6과 Sonnet 4.6 모두 지원하는 것처럼 보이는데, 실제 성능은 전혀 다릅니다.
Anthropic이 사용한 벤치마크는 MRCR v2(Multi-Round Coreference Resolution, 버전 2)입니다. 3,000페이지짜리 문서 안에 아주 구체적인 사실 2개를 숨겨놓고, 모델이 둘 다 정확히 찾아내는지 확인하는 테스트입니다. ‘하나라도’ 아니라 ‘둘 다’를 찾아야 점수가 납니다.
| 모델 | MRCR v2 점수 (1M 기준) | 참고 |
|---|---|---|
| Claude Opus 4.6 | 78.3% | 프런티어 모델 중 최고 |
| Gemini 3 Pro | 26.3% | 1M 지원 but 회수율 낮음 |
| Claude Sonnet 4.5 | 18.5% | 1M 창이 있어도 사실상 비실용 |
| Claude Sonnet 4.6 | 미발표 | Anthropic이 수치를 공개하지 않음 |
(출처: Anthropic 공식 블로그 2026.03.13 / claudecodecamp.com MRCR v2 기준)
Opus 4.6은 256K 구간에서 93%를 기록하다가 1M에서 78.3%로 떨어집니다. 약 15%p 하락인데, 이 정도면 실무에서 쓸 만한 수준입니다. 반면 Sonnet 4.5는 1M에서 18.5%입니다. 10번 중 8번은 틀린다는 뜻입니다.
⚠️ Sonnet 4.6의 1M 성능은 아직 검증이 안 됐습니다
Anthropic은 이번 GA 발표에서 Sonnet 4.6의 MRCR v2 점수를 따로 공개하지 않았습니다. 4.6이 4.5보다 나을 수 있지만, 공식 수치가 없는 상태에서 1M 창을 믿고 중요한 작업에 쓰는 건 위험합니다. Sonnet으로 긴 컨텍스트 작업을 해야 한다면 실제 검증 후 사용을 권장합니다.
“lost in the middle” 문제도 여전히 남아 있습니다. 컨텍스트의 앞과 뒤는 잘 기억하지만, 중간 부분은 주의가 분산됩니다. 중요한 정보는 컨텍스트의 앞이나 끝 부분에 배치하는 습관이 1M 창에서도 유효합니다. (출처: claudecodecamp.com 실측, 2026.03.13)
지연 시간, 캐시 없으면 최대 90초
1M 컨텍스트를 쓸 때 처음 메시지를 보내고 얼마나 기다려야 할까요? 실측 실험에서 나온 수치를 정리하면 이렇습니다.
| 컨텍스트 크기 | 캐시 있을 때 (TTFT) | 캐시 없을 때 (콜드) |
|---|---|---|
| 50K | 약 0.8초 | 약 2초 |
| 200K | 약 1.6초 | 약 9초 |
| 500K | 약 3.5초 | 약 35초 |
| 1M (추정) | 약 5~7초 추정 | 60~90초 추정 |
(출처: claudecodecamp.com 실측, 2026.03.13 기준 / 1M 콜드 수치는 멱함수 외삽 추정값)
1M 콜드 스타트는 60~90초입니다. 실시간 채팅에서 이 대기 시간은 쓰기 힘든 수준입니다. 배치 처리나 비동기 워크플로우에서 써야 합니다.
💡 캐시 TTL 5분이 실무에서 중요한 이유
프롬프트 캐시는 마지막 사용 후 5분이 지나면 만료됩니다. 커피 한 잔 마시고 돌아왔더니 캐시가 식어 있고, 500K 컨텍스트에서 다음 메시지를 보내면 35초를 기다려야 합니다. 긴 세션에서 자리를 비울 때는 중간 저장 지점을 만들어두는 게 현실적입니다.
또 하나 주의할 점이 있습니다. 에이전트 설계에서 도구 호출 결과가 누적되면 컨텍스트가 예상보다 빠르게 불어납니다. 실제로 한 개발자의 사례에서는 Claude 내부의 도구 호출 하나가 데이터베이스 전체를 당겨와 800K 토큰을 소비하는 사고가 발생했습니다. 1M 창이 크다는 이유로 에이전트에 무한정 맥락을 쌓으면 비용이 폭발합니다. (출처: karozieminski.substack.com, 2026.03.13)
경쟁사 비교 — 숫자로 보면 달라 보인다
“1M 토큰 지원”이라는 문구는 이제 Claude만의 것이 아닙니다. Gemini도 1M, GPT-5.4도 1M을 지원합니다. 그런데 비교해보면 요금 구조와 실제 성능이 꽤 다릅니다.
| 항목 | Claude Opus 4.6 | GPT-5.4 (API) | Gemini 3 Pro |
|---|---|---|---|
| 최대 컨텍스트 | 1M | 1.05M | 1M |
| 장문 추가 요금 | 200K 초과 시 2× (API) | 272K 초과 시 전체 2× (소급) | 구간별 상이 |
| MRCR v2 (1M) | 78.3% | 미발표 | 26.3% |
| 구독 플랜 1M 포함 | Max/Team/Enterprise 자동 | ChatGPT: 128~200K 제한 | Gemini Advanced 일부 |
(출처: Anthropic 공식 블로그 2026.03.13 / karozieminski.substack.com / claudecodecamp.com)
실제로 쓸 때 이득이 되는 상황과 아닌 상황
1M 컨텍스트가 모든 상황에서 이득이 되진 않습니다. 실측 데이터를 바탕으로 써볼 만한 경우와 굳이 쓸 필요 없는 경우를 나눠봤습니다.
쓸 만한 경우
대형 코드베이스 단일 분석
전체 코드베이스를 한 번에 넣고 분석하는 단발성 요청. 여러 파일 간 의존성을 한 번에 볼 수 있고, 중간에 맥락이 잘릴 염려가 없습니다.
계약서·법률 문서 전체 검토
400페이지짜리 계약 묶음을 한 세션에 올려놓고 전 협상 이력을 교차 비교할 수 있습니다. 이전에는 청크 분할 없이 불가능했던 작업입니다.
15개 파일 이상 넘나드는 디버깅 세션
컴포넌트 간 상호작용에서 발생하는 버그를 추적할 때, 압축 없이 초반 가설과 최신 스택 트레이스를 동시에 붙잡을 수 있습니다.
굳이 쓸 필요 없는 경우
일반적인 Claude Code 세션
대부분의 일상 코딩 세션은 80~120K 토큰 수준입니다. 200K를 넘지 않으면 추가 비용도 없고, 표준 모델과 성능 차이도 없습니다.
자주 자리를 비우는 장시간 세션
캐시 TTL은 5분입니다. 6분만 자리를 비워도 다음 메시지는 콜드 스타트입니다. 500K 이상 컨텍스트에서 이 패턴이 반복되면 체감 속도가 형편없습니다.
Sonnet 4.6으로 긴 문서 분석
Sonnet 4.6의 1M 회수 정확도는 아직 공개되지 않았습니다. 전작 Sonnet 4.5가 18.5%였던 점을 감안하면, 정확도가 중요한 작업은 Opus로 진행하는 게 안전합니다.
Q&A 5가지
마치며
Claude 1M context GA는 분명 의미 있는 업데이트입니다. 압축이 끊기던 대형 코드베이스 세션, 수백 페이지를 쪼개야 했던 계약 분석 작업, 에이전트가 초반 맥락을 잊어버리던 긴 추론 루프에서 체감이 다릅니다.
다만 두 가지는 짚고 넘어가야 합니다. “추가 요금 없음”은 구독 플랜 기준이고, API를 직접 쓰면 200K 초과 시 2배 단가가 여전히 존재합니다. 그리고 1M 창이 있다고 해서 모든 모델이 그 창을 잘 쓰는 건 아닙니다. Opus 4.6은 78.3%로 쓸 만하지만, Sonnet 계열은 공식 수치가 나올 때까지 긴 컨텍스트 정확도를 믿기 어렵습니다.
결국 이번 업데이트는 “쓸 수 있게 됐다”와 “잘 쓰려면 알아야 할 게 생겼다”가 동시에 일어난 변화입니다. 창이 커진 만큼, 그 안에 무엇을 어떻게 넣을지에 대한 판단이 이전보다 중요해졌습니다.
본 포스팅 참고 자료
- Anthropic 공식 블로그 — “1M context is now generally available for Claude Opus 4.6 and Sonnet 4.6” (https://claude.com/blog/1m-context-ga, 2026.03.13)
- Claude Code Camp 실측 실험 — “I Measured Claude’s 1M Context Window” (https://www.claudecodecamp.com/p/claude-code-1m-context-window, 2026.03.13)
- Karo Zieminski Substack — “Claude Just Unlocked 1 Million Tokens For Everyone” (https://karozieminski.substack.com/p/claude-1-million-context-window-guide-2026, 2026.03.18)
- MindStudio — “What 1 Million Tokens Actually Means in Practice” (https://www.mindstudio.ai/blog/claude-1m-token-context-window-ai-agents/, 2026.03.16)
※ 본 포스팅은 2026년 3월 13일 기준으로 작성되었습니다. Anthropic의 서비스 정책·가격·UI·기능은 업데이트로 인해 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으므로, 중요한 의사결정 전에 반드시 공식 문서를 직접 확인하시기 바랍니다.











댓글 남기기