Claude Code 1M 컨텍스트, 쓰면 안 되는 플랜 있습니다

Published on

in

Claude Code 1M 컨텍스트, 쓰면 안 되는 플랜 있습니다

2026.03.13 GA 기준
Opus 4.6 / Sonnet 4.6
Claude Code 기준

Claude Code 1M 컨텍스트,
쓰면 안 되는 플랜 있습니다

2026년 3월 13일, Anthropic이 Claude Code 1M 컨텍스트를 정식 출시했습니다. 문제는 “쓸 수 있다”와 “쓰면 이득이다”가 완전히 다른 얘기라는 겁니다. Pro 플랜에서 200K를 넘는 순간 비용 구조가 바뀌고, Sonnet 4.6과 Opus 4.6의 실제 성능 격차는 공식 벤치마크에서 4배 이상 차이납니다.

76%
Opus 4.6 MRCR v2 (1M)
18.5%
Sonnet 4.5 MRCR v2 (1M)
200K 초과 시 입력 요금

1M 컨텍스트가 왜 이제야 나왔는지, 짚고 넘어갈 게 있습니다

Claude Code 1M 컨텍스트는 2026년 3월 13일 정식 출시됐습니다. Opus 4.6 모델 발표(2026년 2월 5일)에서 베타로 먼저 공개된 지 약 5주 만입니다. 숫자만 보면 단순한 업그레이드처럼 보이지만, 실제로는 트랜스포머 아키텍처의 근본적인 한계를 알고리즘으로 돌파한 결과입니다.

트랜스포머의 어텐션 연산은 시퀀스 길이가 늘어날수록 메모리 사용량이 제곱으로 증가합니다. 이 구조 때문에 2020년대 초반 GPT-3 시절에는 4K 컨텍스트도 훈련 비용이 어마어마했습니다. 이 문제를 실질적으로 해결한 것은 2022년 스탠퍼드 연구팀이 발표한 FlashAttention 기법입니다. 연산 결과는 동일하지만, 빠른 온칩 메모리를 최대한 활용하도록 연산 순서를 재배열해 메모리 사용량을 O(n²)에서 O(n) 수준으로 낮췄습니다. 하드웨어가 바뀐 게 아니라 알고리즘이 바뀐 겁니다.

💡 공식 발표문과 실제 모델 훈련 이력을 같이 놓고 보면, Opus 4.6이 Sonnet 4.5보다 1M 컨텍스트를 훨씬 잘 쓰는 이유가 단순한 크기 차이가 아니라 훈련 과정에서 긴 시퀀스를 처음부터 경험했는지 여부에 있다는 걸 알 수 있습니다.

“컨텍스트 창이 크다”와 “그 창을 실제로 활용할 수 있다”는 별개입니다. 훈련 중 그 길이의 시퀀스를 경험하지 못한 모델은 처음 보는 위치에 놓인 토큰을 제대로 처리하지 못합니다. Sonnet 4.5가 1M 윈도우를 기술적으로 지원하면서도 MRCR v2 벤치마크에서 18.5%에 그친 이유가 여기 있습니다. (출처: Anthropic 공식 블로그, 2026.02.05)

▲ 목차로 돌아가기

플랜별로 지원 방식이 달라서, 쓰기 전에 먼저 확인해야 합니다

Claude Code 공식 문서(code.claude.com/docs/ko/model-config, 2026.03 기준)에 플랜별 1M 컨텍스트 지원 현황이 명시돼 있습니다. 내용은 아래 표와 같습니다.

플랜 1M Opus 4.6 1M Sonnet 4.6 기본 모델
Max / Team / Enterprise ✅ 기본 포함 ⚠️ Extra Usage Opus 4.6 (Max/Ent), Sonnet 4.6 (Team Standard)
Pro ($20/월) ⚠️ Extra Usage만 ⚠️ Extra Usage만 Sonnet 4.6
API (직접 호출) ✅ 기본 포함 ✅ 기본 포함 선택

Pro 플랜($20/월)에서 1M 컨텍스트를 쓰려면 Extra Usage를 활성화해야 합니다. Extra Usage는 표준 API 요금으로 과금됩니다. (출처: Anthropic 지원 문서, support.claude.com) 플랜 사용량을 다 쓰고 나서도 Extra Usage로 자동 전환되니, 예상보다 청구 금액이 높게 나올 수 있습니다.

💡 같은 Anthropic 구독자여도 Pro 플랜과 Max 플랜은 1M 컨텍스트의 포함 여부가 완전히 다릅니다. “Pro에서도 쓸 수 있다”는 표현이 맞지만, Max처럼 월정액 안에 포함된 것과는 다른 구조입니다.

▲ 목차로 돌아가기

200K 토큰을 1개만 넘어도 전체 요금이 2배로 바뀝니다

API 요금 체계에서 가장 중요한 부분은 200K 초과 시 모든 토큰에 장거리 요금이 적용된다는 점입니다. 200K를 넘어서는 분량에만 요금이 추가되는 게 아닙니다. 요청 전체가 프리미엄 단가로 재계산됩니다. (출처: claude.com/blog/1m-context-ga, 2026.03.13)

199,000 토큰 입력 (Opus 4.6): 199K × $5.00/M = $0.995
201,000 토큰 입력 (Opus 4.6): 201K × $10.00/M = $2.010
→ 2,000토큰 차이로 요금 약 2.02배 증가

단순히 “2배”가 아니라, 경계선을 막 넘었을 때 초과 2,000토큰의 실효 단가는 약 $507/M까지 치솟습니다. 대화 세션을 긴 시간 유지하다 보면 컨텍스트가 200K를 조금씩 넘어가는 상황이 자연스럽게 생기는데, 이때 비용이 갑작스럽게 뛰는 이유가 여기에 있습니다.

모델 표준 입력 (200K 이하) 장거리 입력 (200K 초과) 표준 출력 장거리 출력
Opus 4.6 $5.00/M $10.00/M $25.00/M $37.50/M
Sonnet 4.6 $3.00/M $6.00/M $15.00/M $22.50/M

출처: Anthropic 공식 블로그(claude.com/blog/1m-context-ga, 2026.03.13) / claudecodecamp.com 측정 결과

캐시 요금도 동일하게 2배 단가가 적용됩니다. Opus 4.6 기준 캐시 읽기 단가가 표준 구간에서는 $0.50/M이지만, 장거리 구간에서는 $1.00/M으로 올라갑니다. 캐시를 잘 활용해도 절대 요금 자체가 높아지는 구조입니다.

▲ 목차로 돌아가기

Opus 4.6과 Sonnet 4.6, 1M에서 성능 차이가 생각보다 훨씬 큽니다

Anthropic은 Opus 4.6 출시 발표에서 MRCR v2 벤치마크 수치를 공개했습니다. 이 벤치마크는 1M 토큰 분량의 텍스트 더미 안에 숨겨진 정보를 정확히 찾아내는 능력을 측정합니다. 결과는 아래와 같습니다. (출처: Anthropic 공식 블로그, 2026.02.05 및 claude.com/blog/1m-context-ga, 2026.03.13)

76%
Opus 4.6 at 1M
MRCR v2 8-needle
18.5%
Sonnet 4.5 at 1M
MRCR v2 8-needle
26.3%
Gemini 3 Pro at 1M
MRCR v2 (Anthropic 측정)

Opus 4.6이 Sonnet 4.5보다 4배 이상 높습니다. Opus 4.6은 256K 구간에서는 93%까지 올라가고, 1M에서도 76%를 유지합니다. 반면 Sonnet 4.5는 1M에서 18.5%로 급락합니다. 즉, Sonnet 4.5로 1M 컨텍스트를 켜면 장거리 요금을 내면서 성능은 기대할 수 없는 상태가 됩니다.

💡 1M 토큰을 실제로 투입할 때 모델이 어디를 ‘잘 보는지’도 따로 생각해야 합니다. 모든 트랜스포머 모델은 컨텍스트의 처음과 끝에 더 많은 어텐션을 쏟고, 중간 부분은 상대적으로 소홀히 처리하는 경향이 있습니다(연구자들이 “lost in the middle”이라 부르는 현상). Opus 4.6도 예외는 아닙니다. 반드시 참조해야 하는 정보는 컨텍스트의 앞이나 뒤에 배치하는 게 실용적으로 안전합니다.

Sonnet 4.6의 MRCR 수치는 Anthropic이 공식 문서에서 아직 별도로 공개하지 않은 상태입니다. Sonnet 4.5보다는 나을 것으로 예상되지만, 확정 수치가 나오기 전까지는 긴 컨텍스트 작업엔 Opus 4.6을 쓰는 게 더 안전합니다.

▲ 목차로 돌아가기

1M 컨텍스트가 실제로 값어치를 하는 세 가지 상황

요금과 성능의 맥락을 이해한 뒤 1M 컨텍스트가 진짜 도움이 되는 케이스를 살펴봤습니다. 공식 발표에 담긴 실사용자 사례와 실측 데이터를 교차해서 보면 세 가지 패턴이 뚜렷하게 드러납니다.

1

대규모 코드베이스 전체를 한 번에 넣을 때

여러 파일로 나눠서 청크로 보내면 파일 간 의존관계가 끊어집니다. 코드베이스 전체를 단일 요청에 담으면 그 문제가 사라집니다. Cognition 팀은 Opus 4.6으로 수백만 줄 규모 코드베이스 마이그레이션을 진행하면서 소요 시간이 절반으로 줄었다고 밝혔습니다. (출처: Anthropic 공식 블로그, 2026.02.05) 파일 수가 많아서 맥락이 분산되는 작업이라면 1M 투자 가치가 있습니다.

2

대용량 문서를 처음부터 끝까지 교차 참조할 때

300페이지 계약서에서 특정 조항 간 충돌을 찾거나, 400쪽 소송 기록에서 증언 간 모순을 추적할 때처럼 전체 문서의 어느 위치든 정확히 참조해야 하는 작업입니다. 청크로 나누면 페이지 사이 연결 고리가 날아갑니다. 한 번의 단일 요청에 전부 담는 것이 이 경우 실용적입니다.

3

에이전트팀이 누적한 컨텍스트를 잃으면 안 될 때

여러 서브에이전트가 병렬로 작업한 결과물을 취합하는 코디네이터 에이전트는 컨텍스트가 빠르게 불어납니다. 한 실사용자가 공유한 사례에서, Opus 컨텍스트를 200K에서 500K로 늘렸더니 오히려 전체 토큰 사용량이 줄었다고 했습니다. 덜 중요한 정보까지 다시 반복해서 요청하는 오버헤드가 사라졌기 때문입니다. (출처: claude.com/blog/1m-context-ga, 2026.03.13)

▲ 목차로 돌아가기

막상 써보면 오히려 역효과가 나는 경우도 있습니다

1M 컨텍스트가 무조건 좋은 건 아닙니다. 실측 데이터를 보면 일상적인 Claude Code 세션에서 1M이 필요한 상황이 생각보다 드뭅니다.

⚠️ 쓰면 손해인 상황

  • 일반적인 코딩 세션 — 대부분의 Claude Code 세션은 80~120K 토큰에서 compaction이 발동합니다. 200K에도 못 미칩니다. 이 경우 1M 모델을 선택해도 추가 요금은 없지만, 별다른 이득도 없습니다.
  • Sonnet 4.5로 긴 컨텍스트를 쓸 때 — 장거리 요금을 내면서 MRCR 18.5%짜리 성능을 받는 구조입니다. 돈만 더 나갑니다.
  • 자리를 자주 비우는 작업 환경 — 캐시 TTL은 5분입니다. 6분 이상 자리를 비운 뒤 돌아오면 500K 컨텍스트 기준으로 콜드 스타트 응답 대기가 30초 이상 걸립니다. 1M에 가까워질수록 60~90초 이상으로 늘어납니다. (출처: claudecodecamp.com 실측, 2026.03.13)
  • 오래된 대화를 그냥 이어가는 경우 — 80턴 이상 진행된 대화는 초반의 탐색 기록이 현재 작업에 방해가 되기도 합니다. 큰 창이 오히려 오래된 잡음까지 함께 유지시킵니다. /clear로 새로 시작하는 게 나은 경우가 많습니다.

Claude Code 공식 문서에는 1M 컨텍스트를 비활성화하는 환경변수도 공개돼 있습니다. CLAUDE_CODE_DISABLE_1M_CONTEXT=1로 설정하면 200K 이상 확장이 차단됩니다. 팀 내 비용 통제가 필요할 때 활용할 수 있습니다. (출처: Claude Code 공식 문서, code.claude.com/docs/ko/model-config)

▲ 목차로 돌아가기

Q&A

Q1. Pro 플랜에서 /model opus[1m]을 선택하면 바로 돈이 나가나요?
선택 자체는 공짜입니다. 요금은 실제 컨텍스트가 200K를 넘을 때부터 발생합니다. 다만 Pro 플랜에서는 Extra Usage를 미리 활성화해야 200K 초과 사용이 가능합니다. 비활성화 상태에서 200K를 넘으면 오류가 발생합니다.
Q2. Sonnet 4.6은 1M에서 쓸 만한가요?
Sonnet 4.6의 공식 MRCR 수치는 Anthropic이 아직 공개하지 않은 상태입니다. Sonnet 4.5(18.5%)보다는 나을 것으로 예상됩니다. 하지만 확정 수치가 나오기 전까지는 긴 컨텍스트에서 정확한 정보 검색이 중요한 작업에는 Opus 4.6을 쓰는 게 안전합니다.
Q3. Max 플랜에서도 200K를 넘으면 추가 요금이 붙나요?
Max 플랜에서 Claude Code를 통해 Opus 4.6 1M을 사용하는 건 플랜 포함 사항입니다. 다만 플랜 월 사용량(세션 한도)을 초과하면 그 이후부터 Extra Usage 요금이 적용됩니다. 200K 초과 자체가 추가 요금을 발생시키지는 않지만, 사용량 한도를 넘으면 API 요금이 그대로 부과됩니다.
Q4. 128K 출력 토큰은 기존 Opus와 뭐가 다른가요?
Opus 4.6은 최대 128K 토큰의 출력을 단일 요청에서 생성할 수 있습니다. 이전 모델들은 대형 코드 파일이나 긴 문서를 한 번에 출력하다 중간에 잘리는 경우가 있었는데, 128K 출력이 가능해지면서 그런 상황이 줄었습니다. (출처: Anthropic 공식 블로그, 2026.02.05)
Q5. 1M 컨텍스트를 쓰면 응답이 느려지나요?
캐시가 따뜻하게 유지된 상태라면 체감상 큰 차이가 없습니다. 실측에서 500K 캐시 히트 기준 첫 토큰까지 약 3.5초였습니다. 문제는 캐시가 꺼진 상태의 콜드 스타트입니다. 같은 500K 조건에서 콜드 스타트는 약 35초였습니다. 캐시 TTL은 마지막 요청 기준 5분이므로, 5분 이상 자리를 비우면 다음 메시지에 수십 초를 기다려야 할 수 있습니다. (출처: claudecodecamp.com 실측, 2026.03.13)

▲ 목차로 돌아가기

마치며

Claude Code 1M 컨텍스트는 분명 의미 있는 변화입니다. 대규모 코드베이스, 긴 문서의 교차 분석, 에이전트팀 작업처럼 컨텍스트 분할 자체가 문제였던 작업들에서 실질적인 생산성 향상이 나타납니다.

그런데 Pro 플랜에서는 Extra Usage 없이 200K를 넘을 수 없고, 200K를 넘는 순간 전체 요금 체계가 바뀝니다. Sonnet 4.5로 1M을 시도하면 비용은 두 배로 내면서 성능은 18.5% MRCR이라는 숫자를 받는 상황이 됩니다. “사용 가능하다”는 것과 “쓰는 게 이득이다”를 구분해야 합니다.

솔직히 말하면, 일반적인 코딩 세션에서 1M을 적극적으로 켜두는 건 필요 없는 경우가 많습니다. 컨텍스트가 200K를 넘을 일이 없기 때문입니다. 정말 필요한 상황은 코드베이스 전체를 단번에 읽혀야 하거나, 대용량 문서에서 전체 맥락을 놓치면 안 되는 작업입니다. 그때 Opus 4.6에서 쓰면 됩니다.

본 포스팅 참고 자료

  1. Anthropic 공식 블로그 — Introducing Claude Opus 4.6 (https://www.anthropic.com/news/claude-opus-4-6, 2026.02.05)
  2. Anthropic 공식 블로그 — 1M context is now generally available (https://claude.com/blog/1m-context-ga, 2026.03.13)
  3. Claude Code 공식 문서 — 모델 구성 (https://code.claude.com/docs/ko/model-config)
  4. Anthropic 지원 문서 — Extra Usage for paid plans (https://support.claude.com/en/articles/12429409)
  5. Claude Code Camp — 1M Context Window 실측 분석 (https://www.claudecodecamp.com/p/claude-code-1m-context-window, 2026.03.13)


본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본 포스팅은 2026년 3월 31일 기준으로 작성된 정보를 담고 있으며, Anthropic의 공식 발표 및 문서를 참고했습니다. API 요금·플랜 정책은 사전 예고 없이 변경될 수 있으니, 최신 정보는 Anthropic 공식 사이트(claude.com/pricing)에서 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기