Claude Opus 4.6 / Sonnet 4.6
Claude 1M 토큰, GA됐어도
못 쓰는 플랜이 있습니다
2026년 3월 13일, Anthropic이 Claude Opus 4.6 · Sonnet 4.6의 100만 토큰 컨텍스트 창을 정식 공개했습니다. 결론부터 말씀드리면, “이제 모든 플랜에서 쓸 수 있다”는 말은 절반만 맞습니다. Pro 플랜은 빠져 있고, 비용 구조도 생각보다 복잡합니다.
(1M 토큰 기준)
컨텍스트 확장
(Max·Team·Enterprise)
GA가 됐는데 왜 내 Pro 플랜에서 안 보이나요?
Anthropic 공식 발표(2026.03.13)에는 “모든 플랜에서 표준 요금으로 제공”이라고 적혀 있습니다. 그런데 Reddit과 GitHub Issue 스레드를 보면 Pro 플랜 사용자들이 1M 컨텍스트를 활성화하지 못하거나 즉시 사용량 한도 오류를 만나고 있습니다. (출처: GitHub anthropics/claude-code #34593, 2026.03.13)
Anthropic의 Boris Cherny가 Threads에 올린 릴리스 노트에는 이렇게 명시되어 있습니다: “Opus 4.6 1M is now the default Opus model for Claude Code users on Max, Team, and Enterprise plans. Pro and Sonnet users can opt in with /model” (출처: threads.com/@boris_cherny, 2026.03.13). “opt in”이 가능하다는 뜻이지, 기본 제공이라는 뜻이 아닙니다. Pro 플랜에서 1M 컨텍스트를 호출하면 사용량이 즉시 소진되는 구조라 사실상 사용이 어렵습니다.
정리하면, 1M 컨텍스트를 실질적으로 쓸 수 있는 건 Max 플랜($100/월 이상), Team 플랜, Enterprise 플랜, 그리고 Claude API 사용자입니다. 월 $20짜리 Pro 플랜에서는 형식상 opt-in만 가능할 뿐, 실제로 수십만 토큰을 처리하는 순간 사용량 한도가 바닥납니다.
MRCR 78.3%가 실제로 의미하는 것
Anthropic이 발표에서 전면에 내세운 수치는 MRCR v2 78.3%입니다. MRCR(Multi-Record Correlation and Retrieval)은 수백만 토큰 분량의 텍스트 안에 숨겨진 정보를 정확히 찾아내는지 측정하는 벤치마크입니다. 쉽게 말해, 책 750권 분량의 텍스트 속에서 바늘 여덟 개를 동시에 찾아내는 시험입니다. (출처: Anthropic 공식 뉴스룸, 2026.02.05)
비교 대상이 되는 Sonnet 4.5의 같은 조건 점수는 18.5%입니다. 같은 회사 이전 모델과 비교해도 4배 이상 차이가 납니다. 이 수치는 단순히 “더 많이 읽을 수 있다”는 게 아니라, 읽은 것을 정확히 기억하고 추론에 활용하는 능력이 근본적으로 달라졌다는 뜻입니다.
| 모델 | MRCR v2 @1M 토큰 |
최대 컨텍스트 | 비고 |
|---|---|---|---|
| Claude Opus 4.6 | 78.3% | 100만 토큰 | 프론티어 모델 최고 (2026.03 기준) |
| Claude Sonnet 4.5 | 18.5% | 200만 토큰 | 동일 기준 비교 |
| GPT-5.4 | 공개 없음 | 약 100만 토큰 | 동일 벤치마크 미공개 |
| Gemini 3.0 Pro | 공개 없음 | 약 200만 토큰 | MRCR v2 동일 조건 미발표 |
1M 토큰을 채우면 비용이 어떻게 달라지나요
“표준 요금으로 제공”이라는 발표를 보고 비용이 그대로일 거라고 생각했다면, 실제 청구서를 보고 놀랄 수 있습니다. API 기준으로, 200K 토큰을 초과하는 입력에는 할증 요금이 적용됩니다. 정확한 수치를 직접 계산해보겠습니다.
| 구간 | 입력 요금 (/1M 토큰) |
출력 요금 (/1M 토큰) |
|---|---|---|
| 0 ~ 200K 토큰 | $5.00 | $25.00 |
| 200K 초과 구간 | $10.00 (2배) | $37.50 (1.5배) |
출처: Anthropic 공식 뉴스룸 Claude Opus 4.6 발표, 2026.02.05 / 2026.03.13 GA 업데이트
실제로 코드베이스 전체를 넣는 경우를 계산해봅시다. 50만 토큰짜리 입력을 API로 보내면, 처음 200K는 $5 기준($1.00), 나머지 300K는 $10 기준($3.00), 합산 $4.00입니다. 같은 입력을 200K 기준으로만 처리했다면 $1.00이니까 같은 입력 한 번에 4배 비용이 됩니다. “표준 요금”이라는 말은 200K 이하 구간을 가리키는 말이었습니다.
Cisco CX Engineering의 주임 엔지니어는 이렇게 경고했습니다: “1M 컨텍스트 창에 무조건 다 밀어넣으면 쿼리당 비용이 몇 센트에서 수 달러로 튑니다. 컨텍스트 창 크기는 기본값이 아니라 조절하는 다이얼처럼 써야 합니다.” (출처: vktr.com, 2026.03.09) 정확한 조언입니다.
세션이 끝나면 100만 토큰도 사라집니다
1M 토큰을 가지고 있으면 마치 Claude가 100만 단어 분량의 내용을 영구 기억하는 것처럼 느껴집니다. 이게 아주 흔한 오해입니다. 컨텍스트 창은 세션이 유지되는 동안만 살아있는 임시 작업 메모리입니다.
Claude Code에서 --resume 플래그를 쓰면 이전 세션 로그를 재생해 연속성을 어느 정도 이어갈 수 있습니다. 하지만 이건 세션 범위 내 연속성이지, 기기 이동이나 멀티 프로젝트 간 기억 공유는 아닙니다. 세션을 닫으면 100만 토큰의 컨텍스트는 완전히 초기화됩니다.
실무에서 이 차이가 중요한 이유는, 1M 컨텍스트로 대규모 코드베이스를 분석했다고 해도 다음 날 새 세션을 열면 처음부터 다시 넣어야 합니다. 영구 메모리가 필요하다면 벡터 DB, RAG 파이프라인, 세션 스토리지를 별도로 구성해야 합니다. (출처: vktr.com, 2026.03.09) 크고 비싼 컨텍스트 창이 RAG를 대체하지는 않습니다.
Claude Code에서 실제로 쓰려면 이 순서로
GA 이후 Claude Code(v2.1.75 이상)에서 Opus 4.6은 Max · Team · Enterprise 플랜 기준으로 1M 컨텍스트가 기본 모드로 자동 적용됩니다. 터미널을 열면 ↑ Opus now defaults to 1M context · 5x more room, same pricing 메시지가 나와야 정상입니다. (출처: Reddit r/ClaudeAI, 2026.03.13)
이 메시지가 안 보인다면 아래 두 가지를 먼저 확인하세요.
- Claude Code를 최신 버전으로 업데이트 — npm 설치 사용자라면
claude install명령어로 native installer로 전환하세요. npm 버전에서는 1M 컨텍스트가 적용 안 되는 사례가 보고됐습니다. - 모델 설정 파일 확인 —
.claude/settings.json에"model": "claude-opus-4-6"이 아닌"claude-opus-4-6"처럼 오래된 방식으로 고정되어 있으면 1M이 덮어써지지 않습니다.opus[1m]으로 명시하거나 해당 항목을 삭제하세요.
컨텍스트가 커질수록 세션 내 자동 압축(auto compaction)이 늦게 발동됩니다. 이게 편한 듯 보이지만, 결과적으로 한 세션에서 더 많은 토큰을 소비하게 됩니다. 컨텍스트 압축 임계값을 수동으로 낮추고 싶다면 settings.json에 "CLAUDE_AUTOCOMPACT_PCT_OVERRIDE": "20"을 추가하면 됩니다. (출처: Reddit r/ClaudeAI @systemous, 2026.03.13)
실제 사용 후기 중 인상적인 케이스가 있었습니다. 한 사용자가 1M 컨텍스트 단일 세션에서 200K 세션 5회 분량의 작업을 처리했다고 올렸습니다. 이유가 명확했습니다. 세션 교체 시마다 발생하던 CLAUDE.md 재로딩, 파일 재참조 오버헤드가 없어졌기 때문입니다. 200K 세션 5회 합산 유효 작업 토큰은 약 750K인 반면, 1M 단일 세션의 유효 작업 토큰은 약 970K였습니다. (출처: Reddit r/ClaudeAI @Performer_First, 2026.03.13)
당분간 2M 토큰은 없습니다 — 물리적 이유
“다음 업데이트에서 2M, 5M 토큰 되겠지”라는 기대가 있을 수 있습니다. 솔직히 말해서, 단기간 안에는 쉽지 않습니다. 이건 Anthropic의 의지 문제가 아니라 물리적 제약입니다.
Transformer 기반 모델의 어텐션 연산은 시퀀스 길이에 따라 2차함수적으로 증가합니다. 100만 토큰에서 이미 HBM(고대역폭 메모리)이 병목이 됩니다. AI 인프라 분석가 Doug O’Laughlin과 swyx의 공개 대화에서 이렇게 나왔습니다: “컨텍스트 창은 지난 2년간 실질적으로 1M 언저리에 머물렀습니다. 물리적 제약을 소프트웨어로 넘을 수 없어요. 앞으로 2년도 비슷할 겁니다.” (출처: Latent Space AINews, 2026.03.12~13)
1M 컨텍스트를 꽉 채우면 응답 속도가 느려지고 비용이 급격히 올라갑니다. 거기다 모든 토큰이 어텐션에서 동등하게 처리되지 않기 때문에, 입력 앞부분과 뒷부분의 정보가 중간보다 더 잘 반영되는 경향이 있습니다. 78.3%의 MRCR 점수가 인상적인 이유가 바로 이 문제를 상당히 줄였다는 데 있습니다.
결국, 1M 컨텍스트는 특정 상황에서 진짜 게임체인저가 됩니다. 대규모 코드베이스를 한 세션에 통째로 넣고, 여러 파일 간 의존성을 추론할 때, 그리고 RAG가 놓칠 수 있는 교차 참조 분석이 필요할 때가 그렇습니다. 그렇지 않은 작업에서는 100K 컨텍스트로 충분할 때도 많고, 굳이 1M을 쓸 이유가 없습니다.
Q&A
마치며
Claude Opus 4.6의 1M 토큰 GA는 단순한 숫자 경쟁이 아닙니다. MRCR v2 78.3%라는 수치가 말해주는 건, 큰 창을 달았을 때 실제로 그 안에서 길을 잃지 않는다는 겁니다. 이전 모델들은 창을 키워놓고도 중간 부분 정보를 놓치는 문제가 있었습니다. 그 문제를 실질적으로 줄인 점이 핵심입니다.
다만 몇 가지는 기억해두는 게 좋습니다. Pro 플랜에서는 실질적으로 못 씁니다. 200K를 넘기는 순간 API 비용이 빠르게 올라갑니다. 세션을 닫으면 100만 토큰이든 사라집니다. 그리고 1M을 꽉 채울 필요가 있는 작업은 생각보다 많지 않습니다. 당장 코드베이스 전체를 한 세션에 올리고 대규모 리팩터링을 돌릴 일이 있다면 Max 플랜의 가치는 확실합니다. 그렇지 않다면 200K도 대부분의 작업에서 충분합니다.
이 부분이 좀 아쉬웠습니다. “GA” 발표 직후 “이제 다 됩니다”처럼 읽히는 문구 때문에 혼선이 생겼습니다. 공식 문서를 보면 플랜 제한이 명시되어 있는데, 발표 톤이 그걸 가렸습니다. 기능이 좋은 것과, 내 상황에서 쓸 수 있는 것은 항상 다릅니다.
본 포스팅 참고 자료
- Anthropic 공식 뉴스룸 — Introducing Claude Opus 4.6 https://www.anthropic.com/news/claude-opus-4-6
- Anthropic Threads 공식 계정 — 1M context GA 발표 (Boris Cherny) threads.com/@boris_cherny
- vktr.com — Anthropic’s Claude Opus 4.6 Hits 1M Tokens vktr.com
- Latent Space AINews 2026.03.12~13 — Context Drought latent.space
- Reddit r/ClaudeAI — 1M context GA 커뮤니티 반응 reddit.com/r/ClaudeAI
본 포스팅은 2026년 3월 27일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Claude API 요금, 플랜 구성, 컨텍스트 창 지원 범위는 Anthropic 공식 페이지에서 최신 정보를 확인하시기 바랍니다.

댓글 남기기