Claude 1M 컨텍스트, 이 조건에서만 진짜 빠릅니다

Published on

in

Claude 1M 컨텍스트, 이 조건에서만 진짜 빠릅니다
2026.03.13 GA 기준 / Claude Opus 4.6 · Sonnet 4.6

Claude 1M 컨텍스트, 이 조건에서만 진짜 빠릅니다

2026년 3월 13일, Anthropic이 조용히 바꿔놓은 것들.
1M 토큰 컨텍스트가 정식 출시됐지만,
쓰면 쓸수록 오히려 더 적은 토큰이 든다는 게 진짜 이야기입니다.

78.3% MRCR v2 (1M 토큰 기준, 업계 최고)
15%↓ 컨텍스트 압축 횟수 감소
6배 미디어 첨부 한도 확장 (최대 600개)

1M 컨텍스트 GA, 뭐가 달라졌나요?

2026년 3월 13일, Anthropic이 Claude Opus 4.6과 Sonnet 4.6에 대해 1M 토큰 컨텍스트 창을 정식 출시(GA)했습니다. (출처: Anthropic 공식 블로그, 2026.03.13) 이 수치를 감이 안 잡힌다면 이렇게 생각해 보세요. A4 기준 한 페이지에 500~1,000개 토큰이 들어간다고 보면, 1M 토큰은 대략 책 4~5권 분량입니다. 그게 단일 대화 창 안에 다 들어갑니다.

이전까지는 Sonnet 4.6이 1M 베타를 지원했지만 200K 초과 시 입력 토큰 가격이 2배 과금되는 구조였고, Opus 4.6은 아예 1M을 쓸 수 없었습니다. 정식 출시 이후 달라진 핵심은 딱 세 가지입니다.

  • 단일 가격: 900K짜리 요청이나 9K짜리 요청이나 토큰당 단가 동일 (추가 요금 없음)
  • 미디어 한도 6배 확장: 이미지·PDF 최대 600개 (기존 100개)
  • 베타 헤더 불필요: 기존에 anthropic-beta: long-context-2025-01-01 헤더를 쓰던 코드도 그대로 작동

Claude Code의 Max, Team, Enterprise 플랜 사용자라면 Opus 4.6 세션이 이제 자동으로 1M 컨텍스트를 기본값으로 사용합니다.

가격 구조가 핵심입니다 — 경쟁사와 다른 점

“어차피 다들 1M 지원하잖아요?”라고 생각하면 절반만 맞습니다. 지원 자체는 비슷하지만 가격 구조가 완전히 다릅니다.

모델 200K 이하 입력 단가 200K 초과 입력 단가 비고
Claude Opus 4.6 $5/M $5/M (동일) ✅ 플랫 요금
Claude Sonnet 4.6 $3/M $3/M (동일) ✅ 플랫 요금
GPT-5.4 $2.50/M $5/M (2배) ⚠️ 272K 초과 시 과금
Gemini 3.1 Pro $2/M $4/M (2배) ⚠️ 200K 초과 시 과금

※ 위 표는 paddo.dev 분석 및 각 공식 가격 페이지 기준 (2026.03 기준). 환율·지역·플랜에 따라 다를 수 있으며, 최신 가격은 각 공식 페이지에서 확인 필요.

계산해 보면 이렇습니다. 500K 토큰짜리 Opus 요청을 하루 10회 보낸다고 가정하면, Claude는 하루 $25 고정인데 GPT-5.4는 같은 분량에서 2배 과금 구간이 발동돼 약 $35 이상이 됩니다. 한 달이면 약 $300 이상의 차이가 나는 셈입니다. 1M이 단순한 스펙이 아니라 비용 설계에 직접 영향을 미치는 구조 변화라는 의미입니다.

💡 공식 가격표와 실제 과금 흐름을 같이 놓고 보니 이런 차이가 보였습니다. 경쟁사들은 “1M 지원”이라고 말하지만 실제로는 200K~272K를 넘어서면 단가가 두 배로 올라갑니다. 즉, 긴 컨텍스트를 자주 쓸수록 Claude의 플랫 구조가 유리해집니다.

컨텍스트가 넓어졌는데 왜 토큰이 덜 드나요?

막상 써보면 다릅니다. 1M 창이 생겼다고 해서 토큰 사용이 5배로 뛰는 게 아닙니다. 오히려 반대입니다.

💡 5×200K 세션 vs 1×1M 세션, 실제 비교

Reddit 사용자 Performer_First의 실측 기록에 따르면, 같은 작업을 5번의 200K 세션으로 나누면 세션마다 파일을 다시 불러오는 데 30~50K 토큰이 소모됩니다. 결국 총 실효 토큰은 약 750K 수준. 1M 단일 세션은 최초 30K 비용만 내면 이후 모든 정보가 그대로 유지되므로 실효 작업 토큰이 970K에 달합니다. (출처: Reddit r/ClaudeAI, 2026.03.13)

여기서 핵심은 컨텍스트 압축(Compaction)의 특성입니다. Claude Code는 컨텍스트가 약 83.5%에 도달하면 자동으로 이전 내용을 요약·압축합니다. 200K 기준에서는 이 임계점이 약 134K였지만, 1M에서는 802K까지 밀립니다. 처음 압축이 발생하기까지의 거리가 약 6배 늘어납니다. Anthropic CPO Jon Bell은 1M 전환 후 압축 이벤트가 15% 감소했다고 밝혔는데, 이 수치보다 실제 효과가 더 큽니다. 압축은 누적될수록 손실이 커지기 때문입니다. 압축된 요약본을 다시 압축하면 맥락은 기하급수적으로 흐릿해집니다. (출처: Anthropic 공식 블로그, 2026.03.13)

쉽게 말하면, 1M 컨텍스트를 잘 쓴다는 건 1M을 꽉 채우는 게 아니라 압축이 일어나기 전까지 최대한 긴 세션을 끊김 없이 이어가는 것입니다.

그래도 다 채우면 문제가 생깁니다

솔직히 말하면, 1M 창이 열렸다고 해서 무조건 토큰을 가득 채우면 오히려 정확도가 떨어집니다.

Opus 4.6의 MRCR v2 점수를 보면 이렇습니다. 256K 수준에서는 약 92~93%, 1M에서는 78.3%입니다. (출처: Anthropic 공식 블로그, 2026.03.13) 쉽게 해석하면, 100번 중 22번은 1M 토큰 규모에서 필요한 정보를 제대로 끄집어내지 못한다는 의미입니다. 업계 최고이지만 완벽하지는 않습니다.

⚠️ “중간에 묻히는 정보” 문제

Liu et al.의 연구(2024)에 따르면, LLM은 컨텍스트의 처음과 끝에 주의가 집중되고, 중간 정보는 최대 30% 이상 성능이 하락하는 U자형 곡선을 보입니다. 이는 위치 임베딩 구조 자체의 특성이라 패치로 해결되지 않습니다. (출처: arXiv:2307.03172)

AI 에이전트 설계 가이드라인인 12-factor agents 프레임워크는 컨텍스트 창의 40%를 넘어서면 “멍청해지는 구간(dumb zone)”에 진입한다고 표현합니다. 신호 대비 잡음이 커지고, 에이전트가 실수를 반복하기 시작합니다. 1M 창이 생긴다고 해서 이 원리가 사라지지는 않습니다.

그래서 Anthropic 자체 컨텍스트 엔지니어링 가이드도 “목표는 원하는 결과를 낼 수 있는 가장 작은 고품질 토큰을 찾는 것”이라고 명시합니다. 1M은 목표치가 아니라 여유 공간입니다. 이 부분이 기존 리뷰 글 대부분에서 빠져 있는 지점입니다.

어떤 상황에서 실제로 유리한가요?

1M 컨텍스트가 실제 차이를 만드는 케이스는 생각보다 좁습니다. 다음 상황에서만 진짜 효과를 볼 수 있습니다.

코드베이스 전체를 넣어야 할 때

Claude Code 사용자 seabookchen은 “1M 덕분에 저장소 전체를 넣고도 파일 간 의존 관계를 추론할 수 있게 됐다”고 밝혔습니다. 이전에는 RAG(검색 기반 청크 분리)에 의존해야 했는데, RAG는 파일 간 연결고리를 놓치는 경우가 많았습니다. 실제로 소규모 코드베이스(~15,000줄)를 통째로 넣고도 충분한 여유가 남습니다.

계약서·판례처럼 구조가 없는 문서를 교차 분석할 때

법무 서비스 Eve의 ML 엔지니어 Mauricio Wulfovich는 “400페이지짜리 증언 기록을 교차 참조하거나 전체 케이스 파일의 핵심 연결 고리를 찾아낼 때 확장된 컨텍스트 창이 결정적으로 달랐다”고 전했습니다. (출처: Anthropic 공식 블로그, 2026.03.13) 이는 소프트웨어와 달리, 법률·금융 문서처럼 모듈화가 안 된 텍스트일수록 단편적 요약보다 전체 문서를 그대로 두는 쪽이 해석의 정확도가 높다는 사실을 보여줍니다.

오랜 시간 에이전트 세션을 이어가야 할 때

사용자 loophole64는 “복잡한 프로젝트에서 이틀째 대화를 이어가고 있는데 컨텍스트 사용량이 19%에 불과하다”고 적었습니다. 이전에는 하루에도 몇 번씩 수동으로 맥락을 정리해야 했지만 1M이 되면서 작업 흐름이 끊기지 않습니다.

💡 반면 이런 경우에는 1M이 크게 의미 없습니다. 단발성 질의응답, 짧은 요약 작업, 간단한 코드 생성처럼 200K 이하로 충분히 처리되는 업무는 Sonnet 4.6의 기본 설정으로도 동일한 결과를 냅니다. 오히려 컨텍스트를 크게 열어두면 Pro 플랜의 사용 한도를 빠르게 소진할 수 있으니 주의가 필요합니다.

플랜별로 쓸 수 있는 곳이 다릅니다

여기서 걸립니다. “1M 출시”라는 말만 보고 claude.ai 웹에서 쓰려고 하면 막힙니다.

플랜/채널 1M 사용 가능 비고
Claude Code Max ✅ 기본값 Opus 4.6 자동 적용
Claude Code Team·Enterprise ✅ 기본값 API 청구 계정도 동일
Claude API (직접 호출) ✅ 가능 베타 헤더 불필요, 표준가
Amazon Bedrock · Vertex AI · Azure Foundry ✅ 가능 클라우드 파트너 지원
claude.ai 웹·앱 (Pro 포함) ❌ 미지원 향후 순차 확대 예정 (확인 필요)
Claude Code VSCode 확장 ⚠️ 일부 CLI 버전에서는 작동, GUI는 업데이트 확인 필요

CLI 사용자는 터미널 접속 시 ↑ Opus now defaults to 1M context · 5x more room, same pricing 메시지가 표시되면 정상 적용된 상태입니다. VSCode 확장에서는 모델 표시가 아직 200K로 남아 있는 사례가 보고되었습니다. CLI로 세션을 새로 열거나 Claude Code를 최신 버전으로 업데이트하는 게 가장 확실합니다.

Pro 플랜 단독으로 claude.ai 웹에서 1M을 쓰려면 아직 기다려야 합니다. 다만 일반 채팅 용도에서 1M이 당장 필요한 케이스는 드물기 때문에 현재 구조로도 대부분의 일반 사용자에게는 문제가 되지 않습니다.

Q&A — 자주 나오는 질문 5가지

Q1. Claude 1M 컨텍스트는 claude.ai 웹에서도 쓸 수 있나요?
현재(2026.03.19 기준) claude.ai 웹, iOS, Android 앱과 일반 Pro 플랜에서는 1M 컨텍스트가 지원되지 않습니다. Claude Code의 Max·Team·Enterprise 플랜 및 직접 API 호출에서만 사용 가능합니다. Anthropic은 향후 순차적으로 확대할 것이라 밝혔지만 구체적인 일정은 확인되지 않았습니다.
Q2. 1M 컨텍스트를 가득 채우면 정말 문제가 생기나요?
기술적으로 작동은 하지만 정확도가 떨어집니다. Opus 4.6은 256K에서 92~93% 정확도이지만 1M에서는 78.3%로 하락합니다. (출처: Anthropic 공식 블로그, 2026.03.13) 특히 컨텍스트 중간에 묻힌 정보는 처음이나 끝에 있는 정보보다 회상률이 떨어지는 구조적 현상이 있습니다. 중요한 지시사항은 앞쪽에 배치하는 게 좋습니다.
Q3. Gemini도 1M 컨텍스트가 있는데, 뭐가 다른가요?
두 가지가 다릅니다. 첫째, 가격 구조입니다. Gemini 3.1 Pro는 200K 초과 시 입력 토큰 단가가 $2→$4로 2배 오르지만, Claude는 플랫 단가를 유지합니다. 둘째, 실제 정보 회수 능력입니다. martinalderson.com이 공개한 벤치마크 차트에 따르면 GPT-5.4와 Gemini 3.1 Pro 모두 256K를 넘어서면 MRCR 점수가 50% 아래로 급락합니다. Claude Opus 4.6은 1M에서도 78.3%를 유지합니다.
Q4. Sonnet 4.6도 1M을 쓸 수 있나요? 가격이 더 비싼가요?
네, Sonnet 4.6도 동일하게 $3/M(입력), $15/M(출력)의 플랫 가격으로 1M 컨텍스트를 사용할 수 있습니다. 이전에는 1M 베타 상태에서 200K 초과분이 2배 과금됐지만, GA 이후 추가 요금이 없어졌습니다. 코딩이 아닌 일반 지식 업무나 문서 처리라면 Sonnet 4.6으로도 충분한 경우가 많습니다.
Q5. Pro 플랜 사용자는 사용량을 금방 소진하지 않나요?
맞는 우려입니다. 500K 이상의 컨텍스트로 세션을 이어가다 보면 그 이후 “감사합니다” 한 마디도 500K 토큰을 다시 처리해야 합니다. Pro 플랜은 사용량 한도가 있어서 1~2번의 대화로도 몇 시간치 할당량이 소진될 수 있습니다. 1M 컨텍스트를 본격적으로 활용하려면 Max 이상 플랜이 사실상 필요합니다. 일반 Pro 사용자는 긴 컨텍스트가 꼭 필요한 작업에 한해 선택적으로 사용하는 것을 권장합니다.

마치며

Claude 1M 컨텍스트 GA에서 진짜 중요한 건 창의 크기가 아니라 과금 구조의 변화압축 빈도의 감소입니다. Gemini는 2024년 2월부터 1M을 지원했지만 긴 컨텍스트에서 회수 성능이 약했고, 가격도 2배로 올랐습니다. Claude는 이 두 가지를 동시에 해결했습니다.

이 부분이 좀 아쉬웠습니다. claude.ai 웹이나 Pro 플랜에서는 아직 1M을 못 씁니다. 일반 사용자 입장에서는 “나한테는 해당 없는 기능”처럼 느껴질 수 있습니다. 실제로 Max 이상의 플랜 없이는 1M이 실전에서 의미 있게 쓰이기 어려운 구조입니다.

결론부터 말씀드리면, 대규모 코드베이스나 계약서 분석처럼 “절대 잘려선 안 되는 맥락”이 있는 작업을 API나 Claude Code에서 자주 한다면 이번 변화는 실질적입니다. 반면 일반적인 채팅이나 단발 질의응답이라면 지금 당장 체감하기 어렵습니다. 쓰는 용도에 맞게 판단하면 됩니다.

본 포스팅 참고 자료

  1. Anthropic 공식 블로그 — 1M Context Window GA (2026.03.13)
  2. Anthropic — Introducing Claude Opus 4.6 (2026.02.05)
  3. Anthropic — Introducing Claude Sonnet 4.6 (2026.02.17)
  4. paddo.dev — Context Stops Being Scarce (2026.03)
  5. Martin Alderson — Why Claude’s new 1M context length is a big deal (2026.03)
  6. Liu et al. — Lost in the Middle: How Language Models Use Long Contexts (arXiv:2307.03172)

※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본 포스팅은 2026년 3월 19일 기준으로 작성되었으며, Claude Opus 4.6 및 Sonnet 4.6의 1M 컨텍스트 GA(정식 출시) 공지 내용을 바탕으로 합니다. 플랜 가격·기능 범위는 Anthropic 공식 페이지에서 최신 정보를 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기