Claude Opus 4.6 / Sonnet 4.6 기준
Claude Code 1M 컨텍스트,
직접 써봤더니 이게 달랐습니다
2026년 3월 13일, Anthropic이 Claude Code 1M 컨텍스트 윈도우를 정식 GA(일반 공개)했습니다. 발표 직후 Hacker News 1위에 1,100포인트가 몰렸고, “게임 체인저”라는 말이 쏟아졌습니다. 근데 막상 써보면 꽤 다른 부분이 있습니다. ‘모든 플랜에서 된다’는 말을 그대로 믿으면 절반은 틀립니다.
1M 컨텍스트, 정확히 무엇이 달라졌나
Claude Code 1M 컨텍스트는 단순히 “더 많이 넣을 수 있는 공간”이 아닙니다. 컨텍스트 윈도우는 AI가 한 번에 처리할 수 있는 화이트보드 면적이라고 생각하면 됩니다. 기존 Opus 4.6의 실용 한도는 200K 토큰이었고, 그것도 API beta 조건에 프리미엄 과금이 붙어 있었습니다. 3월 13일 GA는 이 두 가지를 동시에 바꿨습니다.
1M 토큰은 숫자로는 크게 와 닿지 않습니다. 구체적으로는 75,000단어 분량의 비소설 책 75권, 또는 코드 라인 약 11만 줄을 한 세션에 넣을 수 있는 양입니다. PDF와 이미지는 요청당 최대 600개까지 처리됩니다 — 기존 100개에서 6배 늘었습니다. (출처: Anthropic GA 공식 발표, 2026.03.13)
코드베이스 기준으로는 중소 규모 프로덕션 프로젝트 한 개를 파일 분할 없이 통째로 넣을 수 있는 수준입니다. 이전까지는 RAG나 파일 청킹 없이는 불가능했던 일이 지금은 터미널 한 세션으로 됩니다.
💡 공식 발표 시점(2월 5일)과 GA 전환 시점(3월 13일)을 구분해야 합니다. 2월 발표 때는 200K 초과분에 프리미엄 요금이 붙었고, 실제로 표준 요금으로 전환된 건 3월 13일입니다. 발표일 기준으로 정보를 정리한 글에는 이 차이가 빠져 있는 경우가 많습니다.
‘모든 플랜 지원’이 맞긴 한데, 조건이 있습니다
Anthropic 공식 발표에는 “모든 플랜에서 사용 가능”이라고 나옵니다. 틀린 말은 아닙니다. 다만 “모든 플랜”이 적용되는 범위가 Claude Code에 한정됩니다. 웹앱(claude.ai)이나 모바일 앱에서 1M 컨텍스트를 쓸 수 있다는 뜻이 아닙니다.
Reddit r/ClaudeAI 공식 스레드에는 이 부분을 정리한 댓글이 바로 붙었습니다: “1M 컨텍스트는 Claude Code(Max, Team, Enterprise 플랜)와 API에서만 됩니다. 일반 claude.ai 웹앱이나 Pro 플랜에서는 아직 안 됩니다.” (출처: r/ClaudeAI, 2026.03.13)
| 플랜 | 1M 컨텍스트 | 비고 |
|---|---|---|
| Max / Team / Enterprise | ✅ 자동 적용 | Claude Code CLI, 설정 변경 불필요 |
| Pro (구독) | ⚠️ 수동 활성화 | /extra-usage 입력 후 사용 |
| API (개발자) | ✅ 표준 요금 | 3월 13일부터 추가 과금 없음 |
| claude.ai 웹앱 / 앱 | ❌ 미지원 | 출시 시점 기준 미적용 |
Pro 플랜에서 Claude Code를 쓰는 경우, /extra-usage를 입력해야 1M 컨텍스트가 활성화됩니다. 이 단계를 빠뜨리면 여전히 256K 또는 200K로 동작합니다. “자동으로 됩니까?”라는 질문이 공식 스레드에서 가장 많이 올라온 이유입니다. (출처: Anthropic GA 공식 발표문, 2026.03.13)
요금 이야기 — 2월 출시 때와 완전히 달라졌습니다
Claude Opus 4.6이 처음 나온 건 2026년 2월 5일이었고, 그때 1M 컨텍스트는 API beta 조건이었습니다. 그리고 200K를 넘어가는 순간 요금이 달라졌습니다. 2월 공식 발표에 명시된 조건: “200K 초과 프롬프트는 입력 $10/M, 출력 $37.50/M 프리미엄 요금 적용.” (출처: Anthropic Claude Opus 4.6 공식 발표문, 2026.02.05)
즉 2월 기준으로는 600K 토큰짜리 요청 하나가 표준($5/M) 대비 요금이 2배로 뛰었습니다. 3월 13일 GA 이후 이 구조가 사라졌습니다. Opus 4.6 기준 $5/M 입력, Sonnet 4.6 기준 $3/M 입력이 1M까지 동일하게 적용됩니다.
💡 경쟁사인 OpenAI GPT-5.4는 지금도 272K를 넘으면 입력 토큰 비용이 자동으로 2배가 됩니다. 250K 요청은 $2.50/M, 300K 요청은 $5/M — 한 번 선을 넘으면 전체 세션에 2배 요금이 소급 적용됩니다. 개발자들 사이에서 “월말 청구서 놀람”이 반복되는 구조입니다. (출처: karozieminski.substack.com, 2026.03.17)
78.3%가 진짜 수치인 이유
컨텍스트 윈도우가 클수록 좋다는 게 당연한 것 같지만, 실제로는 그렇지 않습니다. 크기만 늘고 중간 부분을 제대로 못 읽으면, 작은 창 여러 개를 쓰는 것보다 오히려 나쁩니다. 이 문제를 “lost in the middle”이라고 부르는데, 컨텍스트 중간에 묻힌 정보를 AI가 건너뛰거나 틀리게 답하는 현상입니다.
Anthropic은 MRCR v2(Multi-Round Coreference Resolution) 8-needle 테스트로 이 부분을 측정했습니다. 3,000페이지 분량 문서에 특정 정보 8개를 숨겨두고, AI가 그 전부를 정확히 찾아내는 비율을 측정하는 방식입니다. 8개 중 7개만 찾아도 점수를 받지 못합니다. 결과는 다음과 같습니다.
| 모델 | MRCR v2 (1M 기준) | 비고 |
|---|---|---|
| Claude Opus 4.6 | 76~78.3% | Anthropic 자체 발표 수치 |
| Gemini (동일 컨텍스트) | 26.3% | Anthropic 발표 기준 비교 |
| Claude Sonnet 4.5 (이전) | 18.5% | 이전 세대 비교 |
Opus 4.6이 Gemini보다 약 3배, 이전 Claude보다 4배 이상 높은 수치입니다. 다만 이 수치는 Anthropic이 자체 발표한 것이고, 독립적인 제3자 검증은 아직 진행 중입니다. Reddit r/ClaudeAI 스레드에서도 “78.3%는 Anthropic 공식 발표 수치이며 독립 검증은 아직”이라는 언급이 있습니다. (출처: r/ClaudeAI 공식 스레드, 2026.03.13)
78.3%라는 수치 자체도 10만 건 처리 시 2만 건은 리콜 실패라는 의미입니다. 정밀도가 중요한 프로덕션 환경에서는 이 10% 오류를 처리하는 검증 단계를 설계에 포함해야 합니다.
크게 쓸수록 비용이 터지는 구조
1M 컨텍스트가 생기면 토큰을 아낄 수 있을 것 같지만, 실제 구조는 반대입니다. 컨텍스트 창이 커지면 compaction(자동 요약 압축)이 덜 발생하지만, 대신 매번 요청할 때마다 쌓인 컨텍스트 전체를 재전송합니다. AI는 stateless — 이전 대화를 기억하는 게 아니라 매 요청마다 전체를 다시 읽습니다.
Cursor에서 테스트한 개발자가 공유한 사례: AI 도구 한 번 호출이 데이터베이스 전체를 당겨오면서 800K 토큰을 소비했습니다. Opus 4.6($5/M 입력 기준) 800K 입력만 $4.00. 응답이 50K 토큰이라면 출력($25/M 기준) 추가 $1.25. 단일 작업 한 번에 $5.25가 나옵니다. (출처: karozieminski.substack.com, 2026.03.17)
💡 캐싱 활용 팁 — 공식 발표 데이터와 실사용 흐름을 같이 보니 이 차이가 보였습니다
Claude Code는 캐시 히트 시 입력 토큰이 최대 90% 저렴해집니다. 같은 코드베이스를 반복 참조하는 긴 세션에서는 첫 번째 읽기 이후 캐시가 붙어 비용이 크게 줄어듭니다. 반면 루프 내에서 매 반복마다 다른 컨텍스트를 넣으면 캐시가 무의미해집니다. 컨텍스트를 크게 유지하되 변하지 않는 부분(시스템 프롬프트, 코드베이스 구조)은 앞쪽에 고정 배치하면 캐시 효율이 올라갑니다.
compaction 임계값을 조정하면 비용을 일부 통제할 수 있습니다. Claude Code 설정 파일(.claude/settings.json)에서 CLAUDE_AUTOCOMPACT_PCT_OVERRIDE를 20으로 낮추면 컨텍스트가 20% 찼을 때 자동 압축이 시작됩니다. 1M을 모두 채우지 않더라도 비용을 낮출 수 있는 방법입니다.
GPT-5.4, Gemini와 뭐가 다른가
GPT-5.4 API도 1.05M 토큰을 지원합니다. 하지만 272K를 넘으면 입력 비용이 자동으로 2배($2.50/M → $5/M)가 되고, 이것이 전체 세션에 소급 적용됩니다. 250K 요청 하나와 300K 요청 하나의 가격 차이가 2배가 아니라 약 4배에 가까운 이유입니다. Claude는 1M까지 단일 요금으로 고정됐습니다. (출처: karozieminski.substack.com, 2026.03.17)
Gemini는 1M~2M까지 창을 지원하고 이미지·오디오·동영상을 혼합 입력하는 멀티모달 처리가 강합니다. 텍스트 중심 작업(문서 분석, 코드, 리서치)에서는 MRCR v2 리콜 수치가 Claude가 높습니다. 반면 GPT-4.1 API는 1M을 $2/M 고정 요금으로 지원해서 장문 텍스트 처리 비용 측면에서는 Claude와 직접 비교되는 구조입니다.
| 모델 | 최대 컨텍스트 | 요금 구조 | MRCR 리콜 |
|---|---|---|---|
| Claude Opus 4.6 | 1M | $5/M 고정 | 78.3% |
| GPT-5.4 API | 1.05M | 272K 초과 시 2배 | 미공개 |
| GPT-4.1 API | 1M | $2/M 고정 | 미공개 |
| Gemini 3.1 Pro | 1M | 별도 확인 필요 | 26.3% |
자주 묻는 질문
Q. claude.ai 웹에서도 1M 컨텍스트가 됩니까?
Q. Pro 플랜에서 활성화하는 방법은요?
/extra-usage를 입력하면 됩니다. 다만 Pro 플랜은 사용량 한도가 있어서, 대용량 세션 몇 번이면 시간당 한도에 빠르게 도달할 수 있습니다. Max 플랜 업그레이드를 고려해볼 만한 상황입니다.
Q. 1M 컨텍스트를 쓰면 요금이 많이 나오나요?
Q. 기존 RAG 파이프라인을 버려도 됩니까?
Q. 세션을 닫으면 1M 컨텍스트도 사라지나요?
--resume 옵션으로 같은 프로젝트 디렉터리에서 이전 세션을 재개할 수 있지만, 다른 프로젝트나 다른 기기에서는 컨텍스트가 연결되지 않습니다. 크로스 세션 메모리는 현재 1M 컨텍스트가 해결하지 못하는 영역입니다.
마치며 — 총평
Claude Code 1M 컨텍스트의 핵심은 숫자 자체가 아니라 두 가지 변화입니다. 첫째, 프리미엄 요금 구조가 사라졌습니다. 3월 13일 이전에는 200K를 넘으면 요금이 2배였고, 지금은 1M까지 단일 요금입니다. 이게 단순 기능 추가가 아니라 실제 워크플로우 비용 구조를 바꿉니다.
둘째, 창 크기만 늘린 게 아니라 리콜 정확도도 함께 올렸습니다. 78.3% MRCR v2 수치가 이전 Claude의 4배, Gemini의 3배입니다. 이 수치는 아직 Anthropic 자체 발표 기준이고 독립 검증이 진행 중이지만, 리콜 품질 격차 자체는 의미 있는 차이입니다.
다만 “모든 플랜에서 된다”, “무료로 된다”는 말을 그대로 믿으면 절반은 틀립니다. 웹앱에서는 아직 안 되고, Pro 플랜은 수동 활성화가 필요하며, 대형 세션을 자주 돌리면 비용이 예상보다 빠르게 쌓입니다. 쓰기 전에 이 세 가지는 알고 시작하는 게 낫습니다.
본 포스팅 참고 자료
- Anthropic 공식 발표 — Claude Opus 4.6 출시 (anthropic.com/news/claude-opus-4-6)
- Anthropic 공식 Reddit — 1M GA 발표 (r/ClaudeAI 공식 스레드, 2026.03.13)
- Claude API 공식 문서 — Context Windows (platform.claude.com/docs)
- Karo Zieminski — 1M 컨텍스트 실사용 분석 (Substack, 2026.03.17)
- MindStudio — AI 에이전트 장문 컨텍스트 활용 사례 (mindstudio.ai, 2026.03.17)
본 포스팅은 2026년 3월 13일 Anthropic 공식 발표 기준으로 작성되었습니다. 서비스 업데이트에 따라 가격·정책·기능이 변경될 수 있으며, 최신 정보는 Anthropic 공식 문서에서 확인하시기 바랍니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.

댓글 남기기