Opus 4.6 / Sonnet 4.6
Claude Code
Claude Code 1M 컨텍스트,
Pro엔 없는 조건이 있습니다
3월 13일, Anthropic이 1M 컨텍스트 윈도우를 GA(정식 출시)로 전환했습니다. 그런데 공식 발표를 읽다 보면 “모든 사람에게 열렸다”는 표현이 반복됩니다. 막상 확인해 보면 Claude Code에서 자동으로 켜지는 플랜은 딱 하나입니다.
‘모두에게 열렸다’는 말이 절반만 맞는 이유
2026년 3월 13일, Anthropic이 공식 블로그(claude.com/blog/1m-context-ga)에 올린 발표문의 첫 문장은 이렇습니다. “Claude Opus 4.6 and Sonnet 4.6 now include the full 1M context window at standard pricing on the Claude Platform.” 읽다 보면 “이제 아무나 쓸 수 있구나”가 자연스럽게 들어옵니다. 그런데 발표문 아래쪽에 딱 한 줄이 더 있습니다.
💡 공식 발표문과 플랜 정책 문서를 같이 놓고 보니 이런 차이가 보였습니다.
“1M context is now included in Claude Code for Max, Team, and Enterprise users with Opus 4.6.”
(출처: Anthropic 공식 블로그, 2026.03.13)
Claude Code에서 1M 컨텍스트가 자동으로 켜지는 플랜은 Max, Team, Enterprise 세 가지입니다. Pro 플랜은 목록에 없습니다. Pro 사용자가 1M 컨텍스트를 쓰려면 API 크레딧으로 별도 과금해야 하고, 그 경우 Opus 4.6 입력 기준 표준 토큰 요금(백만 토큰당 $5)이 적용됩니다. 월 $20 내고 쓰는 Pro 플랜 할당량과는 완전히 다른 계산입니다.
Anthropic이 공식 답변을 내놓지 않은 부분이 하나 있습니다. Pro 플랜에서 1M을 자동으로 지원하지 않는 구체적인 이유입니다. 다만 공식 지원 문서(support.claude.com)에는 “Pro와 Max는 사용량 한도를 Claude 웹앱과 Claude Code가 공유한다”고만 나와 있습니다. 1M 컨텍스트의 GPU 메모리 요구량을 고려하면 Pro 플랜 할당량 내에서 허용하기 어렵다는 추정이 가능합니다만, 이유는 아직 공개되지 않았습니다.
1M 토큰이 실제로 어느 정도 크기인가
숫자로만 보면 감이 잘 오지 않습니다. 공식 블로그는 “전체 코드베이스, 수천 페이지의 계약서, 오랜 에이전트 작업의 전체 기록을 한 번에 담을 수 있다”고 표현했습니다. 조금 더 구체적으로 환산하면 이렇습니다.
| 단위 | 대략적 분량 | 참고 |
|---|---|---|
| 단어 수 | 약 75만 단어 | 장편소설 4~5권 |
| A4 페이지 | 1,000~2,000페이지 | 밀도에 따라 다름 |
| 코드베이스 | 중형 프로젝트 전체 | 파일 수백 개 수준 |
| 이미지/PDF | 최대 600개 | 기존 100개에서 6배 확대 |
기존 200K 컨텍스트를 기준으로 하면 5배입니다. 실제 Claude Code 세션에서 컴팩션(compaction)이 발동하는 시점은 보통 50~80턴 사이입니다. 1M 컨텍스트는 이론상 200턴 이상의 대화를 요약 없이 유지합니다. 세션 내내 처음에 준 지시를 AI가 잊어버리는 상황이 훨씬 줄어드는 겁니다.
또 한 가지 중요한 변화가 있습니다. 이번 GA 전환과 함께 Anthropic은 “롱컨텍스트 프리미엄(long-context premium)”을 API에서 완전히 제거했습니다. 기존에는 200K 토큰을 넘기면 입력 토큰 요금이 2배로 뛰었는데, Opus 4.6과 Sonnet 4.6은 이제 900K짜리 요청이나 9K짜리 요청이나 토큰당 가격이 동일합니다. (출처: Anthropic 공식 블로그, 2026.03.13) 요금 구조가 단순해졌다는 뜻이고, API로 직접 사용하는 경우엔 확실히 좋은 소식입니다.
Sonnet 4.6으로 1M 켜면 생기는 일
공식 발표에는 “Opus 4.6과 Sonnet 4.6 모두”라고 나와 있습니다. 읽는 쪽에서는 둘 다 비슷하게 쓸 수 있다고 이해하기 쉽습니다. 그런데 실제 성능 수치를 꺼내놓으면 얘기가 달라집니다.
💡 Anthropic이 공개한 수치와 제3자 실험 결과를 함께 놓고 보니 모델 간 격차가 뚜렷합니다.
Anthropic의 공식 벤치마크(MRCR v2)에서 Opus 4.6의 1M 구간 점수는 78.3%로, 이 맥락 길이에서 프런티어 모델 중 최고입니다. 반면 Sonnet 4.5는 같은 조건에서 18.5%였습니다. 5배 가까운 차이입니다. (출처: claudecodecamp.com, 2026.03.13 업데이트)
| 모델 | 256K MRCR | 1M MRCR |
|---|---|---|
| Opus 4.6 | 93% | 76~78% |
| Gemini 3 Pro | — | 26.3% |
| Sonnet 4.5 | — | 18.5% |
Sonnet 4.6은 Anthropic이 아직 MRCR 점수를 공개하지 않았습니다. 4.5보다는 나아졌을 가능성이 높지만 공식 수치가 나오기 전까지는 확인되지 않은 상태입니다. 100만 토큰짜리 컨텍스트를 넘기는 작업에서 Sonnet을 선택하는 것은 아직 리스크가 있습니다. 이 부분이 공식 발표에서 눈에 잘 안 띄는 이유는, 발표문이 “무엇이 됐는가”에 집중하고 “어떤 모델에서 얼마나 잘 작동하는가”는 비교적 조용히 다루기 때문입니다.
간단히 말하면, 1M 컨텍스트를 믿고 쓸 수 있는 모델은 현재로서는 Opus 4.6 하나입니다. Sonnet 4.6도 기술적으로 지원은 되지만, 긴 문서 중간에 있는 중요한 내용을 제대로 참조할 확률이 Opus에 비해 크게 낮을 수 있습니다.
캐시 만료 5분, 아무도 얘기 안 한 패널티
1M 컨텍스트 관련 블로그나 소개글을 보면 “이제 컴팩션이 없다”는 이야기가 주를 이룹니다. 맞는 말이긴 한데, 한 가지 빠진 게 있습니다. 바로 캐시 만료(cache expiry) 이후의 콜드 스타트 패널티입니다.
Claude Code는 긴 컨텍스트를 매 턴마다 처음부터 다시 처리하는 대신, 프롬프트 캐싱을 통해 이미 처리된 상태를 저장해 둡니다. 이 캐시의 유효 시간은 5분입니다. 마지막 요청 후 5분이 지나면 캐시가 만료되고, 다음 메시지를 보낼 때 전체 컨텍스트를 처음부터 다시 처리(콜드 스타트)합니다.
| 컨텍스트 크기 | 캐시 온 (TTFT) | 콜드 스타트 (TTFT) |
|---|---|---|
| 50K 토큰 | 약 0.8초 | 약 2초 |
| 200K 토큰 | 약 1.6초 | 약 9초 |
| 500K 토큰 | 약 3.5초 | 약 35초 |
| 1M 토큰 (추정) | 약 6~8초 | 약 60~90초 |
600K 이상 구간의 콜드 스타트 시간은 실측값에서 멱함수적으로 증가하는 패턴을 보입니다. 1M 토큰 세션에서 6분 이상 자리를 비운 뒤 돌아와 질문을 보내면, 첫 응답이 오기까지 1분 이상 기다려야 합니다. 집중 작업 중에는 큰 문제가 없지만, 여러 작업 사이를 오가면서 Claude Code를 쓰는 방식이라면 이 패널티가 실제 경험에 미치는 영향이 적지 않습니다.
1M 컨텍스트가 진짜 필요한 상황 vs 아닌 상황
실험 데이터를 보면 대부분의 일상적인 Claude Code 세션은 80~120K 토큰 수준에서 피크를 찍습니다. 컴팩션이 발동하기 전에 세션을 끝내는 경우가 많다는 뜻입니다. 이 경우 1M 모델을 선택해도 표준 요금은 동일하게 나오니 손해는 아니지만, 굳이 사용해야 할 이유도 없습니다.
- 대형 코드베이스 전체를 단일 요청에 넣어 분석할 때
- 수백 페이지 계약서·법률문서를 교차 분석할 때
- 여러 파일에 걸친 버그를 추적하는 깊은 디버깅 세션
- 에이전트 여러 개가 공유 상태를 계속 쌓아가는 워크플로우
- PDF·이미지 100개 이상을 한 번에 처리할 때
- 일반적인 기능 추가·버그 수정 작업 (80K 이내 처리)
- 자주 자리를 비우거나 멀티태스킹하는 작업 환경
- Sonnet 4.6 기반 작업 (MRCR 미공개, 리스크 존재)
- 이미 80턴 이상 쌓인 세션 (새 세션 시작이 더 효율적)
- 실시간 응답이 중요한 대화형 인터페이스
솔직히 말하면, 1M 컨텍스트가 빛나는 경우는 단발성 대규모 분석입니다. 큰 코드베이스나 문서 전체를 한 번에 밀어 넣고 결과를 뽑는 경우, 캐시가 만료되기 전에 작업을 완료하기 때문에 콜드 스타트 페널티가 없습니다. 반면 멀티턴 대화처럼 여러 번에 걸쳐 주고받는 경우엔, 긴 세션을 유지하는 것보다 중간에 `/clear`로 리셋하는 편이 집중도 면에서 더 나을 수 있습니다.
플랜별 적용 조건 한 번에 정리
지금까지 설명한 내용을 플랜별로 한 화면에 정리하면 다음과 같습니다.
| 플랜 | 1M 자동 활성화 | 사용 가능 모델 | 비고 |
|---|---|---|---|
| Free | ❌ | — | Claude Code 미지원 |
| Pro ($20/월) | ❌ | API 크레딧으로 별도 사용 가능 | 추가 과금 발생 |
| Max 5x / 20x | ✅ 자동 | Opus 4.6 | Claude.ai + Code 할당량 공유 |
| Team | ✅ 자동 | Opus 4.6 | 멤버별 할당량 |
| Enterprise | ✅ 자동 | Opus 4.6 | 별도 계약 |
Claude Code에서 모델 수동 전환 방법:
터미널에서 /model opus[1m] 또는 /model claude-opus-4-6[1m]를 입력하면 됩니다. 계정에서 1M 컨텍스트가 지원될 때만 선택지가 표시됩니다.
API를 직접 사용하는 경우에는 별도 베타 헤더가 필요 없습니다. 200K 토큰을 초과하는 요청을 보내면 자동으로 1M 윈도우가 적용됩니다. 기존에 베타 헤더를 넣어 쓰던 코드가 있어도 그대로 두면 됩니다. 무시됩니다.
Q&A
마치며
Claude Code 1M 컨텍스트 GA 소식에서 가장 먼저 확인해야 할 건 “내가 쓰는 플랜이 Max 이상인가”입니다. Pro에서 자동으로 켜진다는 내용은 어디에도 없습니다.
그다음 확인할 건 모델입니다. 1M 구간에서 78.3%의 MRCR을 기록하는 Opus 4.6과 18.5%(Sonnet 4.5 기준)의 격차는 단순한 숫자 차이가 아닙니다. 100만 토큰짜리 컨텍스트 안에서 원하는 정보를 제대로 찾아오는가의 차이입니다.
마지막으로, 1M 자체가 목표가 될 필요는 없습니다. 대부분의 일상 코딩 세션은 100K 이하에서 끝납니다. 1M이 진짜 필요한 순간, 즉 대규모 단발 분석이나 파일 수백 개짜리 디버깅 세션에서 제대로 꺼내 쓰는 게 이 기능을 활용하는 가장 정직한 방법입니다.
이 글 핵심 3줄 요약
- Claude Code 1M 자동 활성화는 Max, Team, Enterprise만 해당 (Pro 제외)
- 1M 구간에서 신뢰할 수 있는 모델은 현재 Opus 4.6 하나
- 캐시 5분 만료 후 1M 콜드 스타트는 약 60~90초 지연
본 포스팅 참고 자료
- Anthropic 공식 블로그 — 1M Context GA 발표 (2026.03.13) claude.com/blog/1m-context-ga
- Anthropic Claude Code 공식 문서 docs.anthropic.com/en/docs/claude-code
- Anthropic 고객 지원 — Pro/Max 플랜 Claude Code 사용 방법 support.claude.com
- Claude Code Camp — 1M Context 실측 실험 데이터 (2026.03.13) claudecodecamp.com
- MindStudio — Claude 1M Token Context Window AI Agents (2026.03.17) mindstudio.ai
본 포스팅은 2026년 3월 26일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 최신 정보는 Anthropic 공식 문서에서 확인하세요.











댓글 남기기