Claude 1M 컨텍스트, 이 조건에서만 진짜 빠릅니다
2026년 3월 13일, Anthropic이 조용히 바꿔놓은 것들.
1M 토큰 컨텍스트가 정식 출시됐지만,
쓰면 쓸수록 오히려 더 적은 토큰이 든다는 게 진짜 이야기입니다.
1M 컨텍스트 GA, 뭐가 달라졌나요?
2026년 3월 13일, Anthropic이 Claude Opus 4.6과 Sonnet 4.6에 대해 1M 토큰 컨텍스트 창을 정식 출시(GA)했습니다. (출처: Anthropic 공식 블로그, 2026.03.13) 이 수치를 감이 안 잡힌다면 이렇게 생각해 보세요. A4 기준 한 페이지에 500~1,000개 토큰이 들어간다고 보면, 1M 토큰은 대략 책 4~5권 분량입니다. 그게 단일 대화 창 안에 다 들어갑니다.
이전까지는 Sonnet 4.6이 1M 베타를 지원했지만 200K 초과 시 입력 토큰 가격이 2배 과금되는 구조였고, Opus 4.6은 아예 1M을 쓸 수 없었습니다. 정식 출시 이후 달라진 핵심은 딱 세 가지입니다.
- 단일 가격: 900K짜리 요청이나 9K짜리 요청이나 토큰당 단가 동일 (추가 요금 없음)
- 미디어 한도 6배 확장: 이미지·PDF 최대 600개 (기존 100개)
- 베타 헤더 불필요: 기존에
anthropic-beta: long-context-2025-01-01헤더를 쓰던 코드도 그대로 작동
Claude Code의 Max, Team, Enterprise 플랜 사용자라면 Opus 4.6 세션이 이제 자동으로 1M 컨텍스트를 기본값으로 사용합니다.
가격 구조가 핵심입니다 — 경쟁사와 다른 점
“어차피 다들 1M 지원하잖아요?”라고 생각하면 절반만 맞습니다. 지원 자체는 비슷하지만 가격 구조가 완전히 다릅니다.
| 모델 | 200K 이하 입력 단가 | 200K 초과 입력 단가 | 비고 |
|---|---|---|---|
| Claude Opus 4.6 | $5/M | $5/M (동일) | ✅ 플랫 요금 |
| Claude Sonnet 4.6 | $3/M | $3/M (동일) | ✅ 플랫 요금 |
| GPT-5.4 | $2.50/M | $5/M (2배) | ⚠️ 272K 초과 시 과금 |
| Gemini 3.1 Pro | $2/M | $4/M (2배) | ⚠️ 200K 초과 시 과금 |
※ 위 표는 paddo.dev 분석 및 각 공식 가격 페이지 기준 (2026.03 기준). 환율·지역·플랜에 따라 다를 수 있으며, 최신 가격은 각 공식 페이지에서 확인 필요.
계산해 보면 이렇습니다. 500K 토큰짜리 Opus 요청을 하루 10회 보낸다고 가정하면, Claude는 하루 $25 고정인데 GPT-5.4는 같은 분량에서 2배 과금 구간이 발동돼 약 $35 이상이 됩니다. 한 달이면 약 $300 이상의 차이가 나는 셈입니다. 1M이 단순한 스펙이 아니라 비용 설계에 직접 영향을 미치는 구조 변화라는 의미입니다.
💡 공식 가격표와 실제 과금 흐름을 같이 놓고 보니 이런 차이가 보였습니다. 경쟁사들은 “1M 지원”이라고 말하지만 실제로는 200K~272K를 넘어서면 단가가 두 배로 올라갑니다. 즉, 긴 컨텍스트를 자주 쓸수록 Claude의 플랫 구조가 유리해집니다.
컨텍스트가 넓어졌는데 왜 토큰이 덜 드나요?
막상 써보면 다릅니다. 1M 창이 생겼다고 해서 토큰 사용이 5배로 뛰는 게 아닙니다. 오히려 반대입니다.
💡 5×200K 세션 vs 1×1M 세션, 실제 비교
Reddit 사용자 Performer_First의 실측 기록에 따르면, 같은 작업을 5번의 200K 세션으로 나누면 세션마다 파일을 다시 불러오는 데 30~50K 토큰이 소모됩니다. 결국 총 실효 토큰은 약 750K 수준. 1M 단일 세션은 최초 30K 비용만 내면 이후 모든 정보가 그대로 유지되므로 실효 작업 토큰이 970K에 달합니다. (출처: Reddit r/ClaudeAI, 2026.03.13)
여기서 핵심은 컨텍스트 압축(Compaction)의 특성입니다. Claude Code는 컨텍스트가 약 83.5%에 도달하면 자동으로 이전 내용을 요약·압축합니다. 200K 기준에서는 이 임계점이 약 134K였지만, 1M에서는 802K까지 밀립니다. 처음 압축이 발생하기까지의 거리가 약 6배 늘어납니다. Anthropic CPO Jon Bell은 1M 전환 후 압축 이벤트가 15% 감소했다고 밝혔는데, 이 수치보다 실제 효과가 더 큽니다. 압축은 누적될수록 손실이 커지기 때문입니다. 압축된 요약본을 다시 압축하면 맥락은 기하급수적으로 흐릿해집니다. (출처: Anthropic 공식 블로그, 2026.03.13)
쉽게 말하면, 1M 컨텍스트를 잘 쓴다는 건 1M을 꽉 채우는 게 아니라 압축이 일어나기 전까지 최대한 긴 세션을 끊김 없이 이어가는 것입니다.
그래도 다 채우면 문제가 생깁니다
솔직히 말하면, 1M 창이 열렸다고 해서 무조건 토큰을 가득 채우면 오히려 정확도가 떨어집니다.
Opus 4.6의 MRCR v2 점수를 보면 이렇습니다. 256K 수준에서는 약 92~93%, 1M에서는 78.3%입니다. (출처: Anthropic 공식 블로그, 2026.03.13) 쉽게 해석하면, 100번 중 22번은 1M 토큰 규모에서 필요한 정보를 제대로 끄집어내지 못한다는 의미입니다. 업계 최고이지만 완벽하지는 않습니다.
⚠️ “중간에 묻히는 정보” 문제
Liu et al.의 연구(2024)에 따르면, LLM은 컨텍스트의 처음과 끝에 주의가 집중되고, 중간 정보는 최대 30% 이상 성능이 하락하는 U자형 곡선을 보입니다. 이는 위치 임베딩 구조 자체의 특성이라 패치로 해결되지 않습니다. (출처: arXiv:2307.03172)
AI 에이전트 설계 가이드라인인 12-factor agents 프레임워크는 컨텍스트 창의 40%를 넘어서면 “멍청해지는 구간(dumb zone)”에 진입한다고 표현합니다. 신호 대비 잡음이 커지고, 에이전트가 실수를 반복하기 시작합니다. 1M 창이 생긴다고 해서 이 원리가 사라지지는 않습니다.
그래서 Anthropic 자체 컨텍스트 엔지니어링 가이드도 “목표는 원하는 결과를 낼 수 있는 가장 작은 고품질 토큰을 찾는 것”이라고 명시합니다. 1M은 목표치가 아니라 여유 공간입니다. 이 부분이 기존 리뷰 글 대부분에서 빠져 있는 지점입니다.
어떤 상황에서 실제로 유리한가요?
1M 컨텍스트가 실제 차이를 만드는 케이스는 생각보다 좁습니다. 다음 상황에서만 진짜 효과를 볼 수 있습니다.
코드베이스 전체를 넣어야 할 때
Claude Code 사용자 seabookchen은 “1M 덕분에 저장소 전체를 넣고도 파일 간 의존 관계를 추론할 수 있게 됐다”고 밝혔습니다. 이전에는 RAG(검색 기반 청크 분리)에 의존해야 했는데, RAG는 파일 간 연결고리를 놓치는 경우가 많았습니다. 실제로 소규모 코드베이스(~15,000줄)를 통째로 넣고도 충분한 여유가 남습니다.
계약서·판례처럼 구조가 없는 문서를 교차 분석할 때
법무 서비스 Eve의 ML 엔지니어 Mauricio Wulfovich는 “400페이지짜리 증언 기록을 교차 참조하거나 전체 케이스 파일의 핵심 연결 고리를 찾아낼 때 확장된 컨텍스트 창이 결정적으로 달랐다”고 전했습니다. (출처: Anthropic 공식 블로그, 2026.03.13) 이는 소프트웨어와 달리, 법률·금융 문서처럼 모듈화가 안 된 텍스트일수록 단편적 요약보다 전체 문서를 그대로 두는 쪽이 해석의 정확도가 높다는 사실을 보여줍니다.
오랜 시간 에이전트 세션을 이어가야 할 때
사용자 loophole64는 “복잡한 프로젝트에서 이틀째 대화를 이어가고 있는데 컨텍스트 사용량이 19%에 불과하다”고 적었습니다. 이전에는 하루에도 몇 번씩 수동으로 맥락을 정리해야 했지만 1M이 되면서 작업 흐름이 끊기지 않습니다.
💡 반면 이런 경우에는 1M이 크게 의미 없습니다. 단발성 질의응답, 짧은 요약 작업, 간단한 코드 생성처럼 200K 이하로 충분히 처리되는 업무는 Sonnet 4.6의 기본 설정으로도 동일한 결과를 냅니다. 오히려 컨텍스트를 크게 열어두면 Pro 플랜의 사용 한도를 빠르게 소진할 수 있으니 주의가 필요합니다.
플랜별로 쓸 수 있는 곳이 다릅니다
여기서 걸립니다. “1M 출시”라는 말만 보고 claude.ai 웹에서 쓰려고 하면 막힙니다.
| 플랜/채널 | 1M 사용 가능 | 비고 |
|---|---|---|
| Claude Code Max | ✅ 기본값 | Opus 4.6 자동 적용 |
| Claude Code Team·Enterprise | ✅ 기본값 | API 청구 계정도 동일 |
| Claude API (직접 호출) | ✅ 가능 | 베타 헤더 불필요, 표준가 |
| Amazon Bedrock · Vertex AI · Azure Foundry | ✅ 가능 | 클라우드 파트너 지원 |
| claude.ai 웹·앱 (Pro 포함) | ❌ 미지원 | 향후 순차 확대 예정 (확인 필요) |
| Claude Code VSCode 확장 | ⚠️ 일부 | CLI 버전에서는 작동, GUI는 업데이트 확인 필요 |
CLI 사용자는 터미널 접속 시 ↑ Opus now defaults to 1M context · 5x more room, same pricing 메시지가 표시되면 정상 적용된 상태입니다. VSCode 확장에서는 모델 표시가 아직 200K로 남아 있는 사례가 보고되었습니다. CLI로 세션을 새로 열거나 Claude Code를 최신 버전으로 업데이트하는 게 가장 확실합니다.
Pro 플랜 단독으로 claude.ai 웹에서 1M을 쓰려면 아직 기다려야 합니다. 다만 일반 채팅 용도에서 1M이 당장 필요한 케이스는 드물기 때문에 현재 구조로도 대부분의 일반 사용자에게는 문제가 되지 않습니다.
Q&A — 자주 나오는 질문 5가지
마치며
Claude 1M 컨텍스트 GA에서 진짜 중요한 건 창의 크기가 아니라 과금 구조의 변화와 압축 빈도의 감소입니다. Gemini는 2024년 2월부터 1M을 지원했지만 긴 컨텍스트에서 회수 성능이 약했고, 가격도 2배로 올랐습니다. Claude는 이 두 가지를 동시에 해결했습니다.
이 부분이 좀 아쉬웠습니다. claude.ai 웹이나 Pro 플랜에서는 아직 1M을 못 씁니다. 일반 사용자 입장에서는 “나한테는 해당 없는 기능”처럼 느껴질 수 있습니다. 실제로 Max 이상의 플랜 없이는 1M이 실전에서 의미 있게 쓰이기 어려운 구조입니다.
결론부터 말씀드리면, 대규모 코드베이스나 계약서 분석처럼 “절대 잘려선 안 되는 맥락”이 있는 작업을 API나 Claude Code에서 자주 한다면 이번 변화는 실질적입니다. 반면 일반적인 채팅이나 단발 질의응답이라면 지금 당장 체감하기 어렵습니다. 쓰는 용도에 맞게 판단하면 됩니다.
본 포스팅 참고 자료
- Anthropic 공식 블로그 — 1M Context Window GA (2026.03.13)
- Anthropic — Introducing Claude Opus 4.6 (2026.02.05)
- Anthropic — Introducing Claude Sonnet 4.6 (2026.02.17)
- paddo.dev — Context Stops Being Scarce (2026.03)
- Martin Alderson — Why Claude’s new 1M context length is a big deal (2026.03)
- Liu et al. — Lost in the Middle: How Language Models Use Long Contexts (arXiv:2307.03172)
※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본 포스팅은 2026년 3월 19일 기준으로 작성되었으며, Claude Opus 4.6 및 Sonnet 4.6의 1M 컨텍스트 GA(정식 출시) 공지 내용을 바탕으로 합니다. 플랜 가격·기능 범위는 Anthropic 공식 페이지에서 최신 정보를 확인하시기 바랍니다.

댓글 남기기