정식 GA
Claude 1M 컨텍스트, 공식 문서 4가지로 직접 확인했습니다
2026년 3월 13일, Anthropic이 조용히 하나를 바꿨습니다. Claude 1M 컨텍스트 윈도우가 베타를 졸업하고 정식 출시됐습니다. 추가요금도, 베타 헤더도, 별도 모델 버전도 없습니다. 근데 이게 생각보다 훨씬 큰 변화입니다.
900K 토큰도 9K랑 요금이 같다고요?
기존에는 Sonnet 4.6 API에서 200K 토큰을 넘어가면 입력 요금이 2배로 튀었습니다. $3/MTok이 $6/MTok이 되는 구조였습니다. Opus 4.6은 아예 1M 컨텍스트 자체가 없었습니다.
3월 13일부로 그 구조가 통째로 없어졌습니다. Anthropic 공식 블로그에 명확하게 적혀 있습니다. “A 900K-token request is billed at the same per-token rate as a 9K one.” (출처: Anthropic 공식 블로그, 2026.03.13)
💡 공식 발표문과 실제 과금 구조를 같이 놓고 보니 이런 차이가 보였습니다
Opus 4.6 기준으로 900K 토큰 요청 1회의 입력 비용은 $4.50(= 0.9M × $5)입니다. 이전 Sonnet 4.6 베타 기준 같은 요청은 $6 × 0.7M(200K 초과분에 2배 적용 시 추정) 수준으로 더 나왔습니다. 지금은 모델 등급에 따른 단일 요율만 적용됩니다.
현재 적용 요율은 다음과 같습니다. Opus 4.6: 입력 $5/MTok, 출력 $25/MTok. Sonnet 4.6: 입력 $3/MTok, 출력 $15/MTok. 컨텍스트 길이에 따른 할증 없음. (출처: Anthropic 공식 블로그 1M Context GA, 2026.03.13)
1M 토큰이 실제로 어느 정도 크기인가요
“100만 토큰”은 숫자가 크다는 건 알겠는데 감이 잘 안 옵니다. 공식 발표 기준으로 구체적인 크기를 번역하면 이렇습니다. (출처: Anthropic 공식 블로그, 2026.03.13)
| 단위 | 1M 토큰 = 약 |
|---|---|
| 영어 단어 기준 | 75만 단어 |
| 코드 라인 수 | 7만 5천 줄 이상 |
| PDF/이미지 첨부 | 600장 (기존 100장에서 6배) |
| 텍스트 페이지 | 약 3,000 페이지 |
코드 7만 5천 줄이면 중대형 상용 서비스의 전체 레포지토리를 한 번에 올릴 수 있는 수준입니다. PDF 600장은 계약서 묶음이나 논문 수십 편을 한 세션에 처리할 수 있다는 의미입니다.
Claude Code를 Max, Team, Enterprise 플랜으로 사용 중이라면 Opus 4.6에서 1M 컨텍스트가 자동으로 활성화됩니다. 이전에는 1M 사용이 추가 사용량을 소진했지만, GA 이후에는 추가 차감 없이 포함됩니다.
MRCR v2 78.3%, 이게 왜 중요한 숫자인가요
컨텍스트 창이 크다는 것과, 그 안에서 실제로 정확하게 읽는다는 건 다른 얘기입니다. 큰 화이트보드를 갖고 있어도 뒤쪽에 쓴 내용을 잊어버리면 의미가 없습니다.
MRCR v2(Multi-Round Coreference Resolution)는 3,000페이지 분량의 문서 안에 숨겨진 특정 사실 2개를 얼마나 정확하게 찾아내는지 측정하는 벤치마크입니다. 1개라도 놓치면 점수에 포함되지 않습니다. Anthropic 공식 발표 기준(2026.03.13) 점수를 비교하면 다음과 같습니다.
| 모델 | MRCR v2 점수 (1M 토큰 기준) |
|---|---|
| Claude Opus 4.6 | 78.3% |
| Gemini (동일 컨텍스트 길이) | 26.3% |
| 이전 Claude 최고 기록 | 18.5% |
이 수치는 같은 1M 컨텍스트 윈도우를 가진 Gemini 대비 약 3배, 이전 Claude 대비 약 4배 높은 수준입니다. 즉, 큰 계약서 세트나 긴 코드베이스를 올렸을 때 실제로 찾아내는 정확도가 경쟁 모델과 크게 차이가 납니다.
⚠️ 확인 필요: MRCR v2 78.3% 수치는 Anthropic 자체 발표 기준입니다. 독립 기관의 재현 검증은 이 포스팅 작성 시점(2026.03.18) 기준으로 아직 진행 중입니다. Hacker News 스레드에서 일부 개발자가 “모델이 앞서 합의한 결정을 무시하고 다른 방향으로 진행하는” 현상을 보고했습니다. 벤치마크와 실사용 경험이 100% 일치하지 않을 수 있습니다.
Pro 플랜인데 왜 1M이 안 켜질까요
Anthropic 발표에서 가장 많이 놓치는 부분이 이겁니다. 공식 블로그에는 “추가요금 없이 전체 윈도우 사용 가능”이라고 나와 있지만, 플랜별로 활성화 방식이 다릅니다.
📋 플랜별 1M 컨텍스트 활성화 방식 (Claude Code 기준, 2026.03.13)
| 플랜 | 활성화 방식 |
|---|---|
| Max / Team / Enterprise | 자동 활성화 (별도 설정 불필요) |
| Pro | Claude Code에서 /extra-usage 직접 입력 필요 |
| Free | 미지원 (확인 필요) |
Pro 플랜 사용자라면 Claude Code 터미널에서 /extra-usage를 입력해야 1M 컨텍스트가 켜집니다. 이 단계를 건너뛰면 기본값인 200K 컨텍스트로 계속 작동합니다. 발표문을 읽고 “나도 자동으로 됐겠지”라고 생각했다면 한번 확인해보는 게 좋습니다.
API 직접 사용자라면 별도 조치가 없어도 됩니다. 200K 토큰을 초과하는 요청이 자동으로 처리되며, 이전에 베타 헤더를 사용했다면 무시됩니다. 코드 변경 없이 그대로 사용 가능합니다.
GPT-5.4, Gemini 3.1 Pro랑 비교하면 어떻게 됩니까
1M 컨텍스트를 지원하는 모델이 Claude만 있는 건 아닙니다. 근데 어떻게 지원하는지가 다릅니다. 직접 비교하면 차이가 명확하게 보입니다.
| 모델 | 최대 컨텍스트 | 장문 요금 구조 |
|---|---|---|
| Claude Opus 4.6 | 1M 토큰 | 플랫 요금 (할증 없음) |
| Claude Sonnet 4.6 | 1M 토큰 | 플랫 요금 (할증 없음) |
| GPT-5.4 (API) | 1.05M 토큰 | 272K 초과 시 입력 2배, 출력 1.5배 |
| GPT-4.1 (API) | 1M 토큰 | 플랫 요금 ($2/MTok) |
| Gemini 3.1 Pro (API) | 1M 토큰 | 구간별 티어 요금 적용 |
💡 실제 API 개발자 입장에서 이게 어떤 의미인지 보면
컨텍스트가 클수록 토큰이 더 나간다는 게 틀린 이유
직관적으로 생각하면 컨텍스트 창이 크면 그만큼 토큰을 더 쓰고, 비용도 더 올라갈 것 같습니다. 실제 사용 사례를 보면 반드시 그렇지는 않습니다.
Anthropic GA 발표문에 인용된 한 엔지니어링팀의 사례입니다. “We raised our Opus context window from 200K to 500K and the agent runs more efficiently — it actually uses fewer tokens overall.” (출처: Izzy Miller, AI Research Lead, Anthropic 공식 블로그 1M Context GA, 2026.03.13)
💡 이 결과가 나오는 원리를 발표 자료를 따라가면서 추적해봤습니다
컨텍스트가 작을 때 에이전트는 맥락을 잃지 않으려고 반복 요약(compaction)을 합니다. 요약 자체도 토큰을 씁니다. 요약이 잘못되면 다시 확인하는 쿼리가 추가로 나갑니다. 컨텍스트가 충분히 크면 이 반복 과정이 줄어들고 총 토큰 사용량이 오히려 감소하는 경우가 생깁니다. 구체적으로 compaction 발생 빈도가 15% 감소했다는 수치가 Anthropic 공식 발표문에 포함돼 있습니다.
다만 이건 에이전트 기반 작업 기준입니다. 단순히 긴 문서를 한 번에 올려놓고 단발 질문을 하는 방식이라면 반대로 비용이 더 빠르게 쌓입니다. Cursor에서 AI 툴 1회 호출로 DB 전체가 올라가 800K 토큰이 소진된 사례도 보고됐습니다. 사용 방식에 따라 결과가 달라집니다.
실제로 쓸 때 걸리는 지점들
1M 컨텍스트가 됐다고 해서 모든 문제가 사라지는 건 아닙니다. 커뮤니티와 공식 발표 전후 맥락에서 확인된 한계점들을 정리했습니다.
비용 계산을 먼저 해봐야 합니다
Opus 4.6으로 900K 토큰짜리 세션 1회의 입력 비용은 약 $4.50입니다(= 0.9M × $5/MTok). 이걸 루프로 반복 실행하는 에이전트에 물리면 시간당 비용이 빠르게 올라갑니다. 단발 리서치 용도라면 문제없지만, 프로덕션 자동화 파이프라인에 붙이기 전에 실제 토큰 소비량을 먼저 측정하는 게 안전합니다.
컨텍스트 중간 부분이 더 잘 무시됩니다
이건 Claude만의 문제가 아니라 현재 모든 장문 LLM 모델에서 공통적으로 관찰되는 현상입니다. 컨텍스트 윈도우의 앞부분과 끝부분은 비교적 잘 유지되지만, 중간에 파묻힌 내용은 상대적으로 무시되는 경향이 있습니다(Context Rot 현상). AlphaSignal 분석 및 Hacker News 개발자 커뮤니티 후기 기준입니다. MRCR v2 78.3%가 높은 수치이긴 하지만, 나머지 21.7%가 바로 이 구간에서 발생한다는 의미도 됩니다.
무엇을 컨텍스트에 넣을지는 여전히 사람 몫입니다
창이 커지면 “일단 다 넣어” 식으로 쓰게 됩니다. 근데 그게 오히려 품질을 떨어뜨릴 수 있습니다. 관련 없는 내용이 많이 들어갈수록 모델의 집중도가 분산됩니다. 1M 컨텍스트가 생겼다고 해서 컨텍스트 설계를 손 놓아도 된다는 의미는 아닙니다.
Q&A
마치며
Claude 1M 컨텍스트 GA는 숫자 자체보다 가격 구조 변화가 더 의미 있습니다. 장문 요청에 할증이 붙던 구조가 없어졌고, API 개발자 입장에서는 월말 청구서 예측이 훨씬 쉬워졌습니다.
다만 Pro 플랜 Claude Code 사용자라면 자동 적용이 아니라 /extra-usage 입력이 필요하다는 점, 컨텍스트가 커질수록 비용이 빠르게 쌓일 수 있다는 점은 놓치기 쉬운 부분입니다. 특히 에이전트를 프로덕션에 올리는 경우라면 토큰 사용량 모니터링 도구를 먼저 설정하는 것을 권장합니다.
개인적으로는 “컨텍스트가 넓어져서 다 해결됐다”는 식의 해석보다는, 넓어진 창을 어떻게 설계해서 쓸 것인지가 앞으로의 핵심 질문이 될 것 같습니다. 도구가 강해졌을 때 그 도구를 잘 다루는 쪽이 결국 더 좋은 결과를 냅니다.
본 포스팅 참고 자료
※ 본 포스팅은 2026년 3월 18일 기준으로 작성됐습니다. Anthropic의 서비스 정책, 가격, UI, 기능은 업데이트로 인해 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으니 중요한 의사결정 전에는 공식 문서를 반드시 재확인하시기 바랍니다.


댓글 남기기