Claude Code 1M 컨텍스트, 4가지 조건 직접 확인했습니다

Published on

in

Claude Code 1M 컨텍스트, 4가지 조건 직접 확인했습니다

2026.03.13 기준
Claude Code GA
Opus 4.6 기준

Claude Code 1M 컨텍스트, 4가지 조건 직접 확인했습니다

2026년 3월 13일, Anthropic이 Claude Opus 4.6과 Sonnet 4.6의 1M 토큰 컨텍스트 윈도우를 정식 출시했습니다. 기존 베타 때와 달리 추가 요금 없이 Max·Team·Enterprise 플랜에 기본 적용됩니다. 그런데 “무조건 켜두면 유리하다”는 말은 절반만 맞습니다. 200K 경계를 넘는 순간 요금 구조가 통째로 바뀌고, 컨텍스트가 커질수록 품질이 오히려 떨어지는 구간이 생깁니다.

76%
Opus 4.6 MRCR v2 (1M)
18.5%
Sonnet 4.5 동일 조건
200K 초과 시 입력 단가

1M 컨텍스트가 정식 출시됐다는 게 정확히 무슨 의미인가

Claude Code 1M 컨텍스트 윈도우는 2026년 2월 5일 Opus 4.6 출시 당시 베타로 먼저 나왔습니다. 당시엔 Claude Platform API 전용이었고, 200K 토큰 초과분에 입력 기준 2배 요금이 붙었습니다. 그게 2026년 3월 13일부로 정식(GA) 전환됐고, Max·Team·Enterprise 구독자는 Opus 4.6 세션에서 자동으로 1M이 기본 적용됩니다. (출처: Anthropic 공식 블로그, 2026.03.13)

핵심은 ‘정식 출시’의 의미입니다. 베타 헤더를 별도로 추가하지 않아도 200K 초과 요청이 자동으로 처리됩니다. 기존에 베타 헤더를 쓰고 있던 API 사용자라면 코드 수정 없이 그대로 작동합니다.

💡 공식 발표문과 실제 적용 대상을 같이 놓고 보니 이런 차이가 보였습니다

Anthropic이 “추가 프리미엄 없이 전체 1M 윈도우”라고 표현하는 건 API 종량제 기준입니다. Max 구독($200/월) 사용자가 200K를 넘으면 추가 사용(extra usage)으로 청구됩니다. 공식 문서에 명시된 내용입니다.

컨텍스트 윈도우 확장의 기술적 배경은 2022년 Stanford에서 발표된 FlashAttention 알고리즘입니다. 기존 어텐션 연산이 O(n²)로 메모리를 소비하던 구조를, 온칩 메모리 내에서 타일 단위로 처리해 O(n)으로 줄였습니다. 100K, 200K, 1M 컨텍스트가 가능해진 것은 하드웨어 혁신이 아니라 이 알고리즘 변화 덕분입니다. 하드웨어가 아니라 알고리즘이 먼저였습니다.

▲ 목차로 돌아가기

요금제별 적용 조건 — Max와 Pro는 다릅니다

플랜마다 1M 컨텍스트 접근 방식이 다릅니다. Anthropic 공식 Claude Code 문서(code.claude.com/docs/en/model-config#extended-context) 기준으로 정리하면 아래와 같습니다.

요금제 1M 컨텍스트 기본 적용 200K 초과 시 청구
API (종량제) ✅ 전체 접근 장기 컨텍스트 요금 (2× 입력, 1.5× 출력)
Max ($100–$200/월) ✅ 기본 활성화 추가 사용(extra usage)으로 별도 청구
Team / Enterprise ✅ Opus 4.6에서 기본 활성화 추가 사용으로 별도 청구
Pro ($20/월) ⚠️ 옵트인 필요 추가 사용으로 별도 청구

Pro 플랜은 `/model opus[1m]` 또는 `/model sonnet[1m]` 명령어로 직접 선택해야 합니다. 단, 모델 선택만으로는 추가 요금이 발생하지 않습니다. 실제로 200K를 넘어야 청구가 시작됩니다.

2026년 3월 13일부터 27일까지 Anthropic이 진행 중인 프로모션도 이 맥락에서 봐야 합니다. 평일 오전 8시~오후 2시 ET 외 시간에 5시간 사용량을 2배로 제공하는 건데, 1M 컨텍스트로 발생하는 추가 사용 청구와는 별개입니다. 프로모션은 주간 한도에 카운트되지 않습니다. (출처: Anthropic 지원 센터, 2026.03.13)

▲ 목차로 돌아가기

200K 경계를 넘으면 전체 토큰에 2배 요금이 붙습니다

가장 중요한 부분입니다. 직접 계산해볼 수 있습니다.

⚠️ 200K 경계의 실제 비용 구조

Opus 4.6 입력 기준:

  • 199,000 토큰 요청: 199K × $5.00/M = $0.995
  • 201,000 토큰 요청: 201K × $10.00/M = $2.010
  • 차이: 토큰 2,000개 추가에 비용 $1.015 증가
  • 2,000 토큰의 실효 단가: 약 $507.50/M

200K를 딱 1토큰이라도 넘으면, 초과분만 비싸지는 게 아닙니다. 전체 요청의 입력 단가가 $5.00에서 $10.00으로 올라갑니다. 캐시 읽기도 마찬가지로 $0.50/M에서 $1.00/M이 됩니다. 90% 캐시 할인은 여전히 적용되지만, 기준 단가가 두 배이므로 실질 절약 금액은 달라집니다.

💡 공식 가격표와 실측 실험 결과를 같이 보니 이런 게 보였습니다

컨텍스트 200K 경계에서 2.5배 비용 증가(199K→250K)가 실제 API 호출로 측정됐습니다. 50K 추가인데 비용은 2.5배. 경계 직전에서 세션을 정리하거나 /clear 하는 습관이 실질적인 비용 절감으로 이어집니다.

출력 토큰은 1.5× 배율이 적용됩니다. Opus 4.6 기준으로 200K 미만은 $25.00/M, 200K 초과는 $37.50/M입니다. 세션이 길어지면 출력도 쌓이므로 총 비용 증가는 단순 2배보다 큽니다.

▲ 목차로 돌아가기

1M 컨텍스트가 길수록 좋다는 건 절반만 맞습니다

컨텍스트를 크게 늘릴수록 품질이 좋아진다는 건 사실과 다릅니다. 두 가지 벽이 존재합니다.

① 컨텍스트 중간 영역은 모델이 덜 봅니다

연구자들이 “lost in the middle”이라 부르는 현상입니다. 트랜스포머 모델은 컨텍스트의 앞과 뒤에 더 많은 어텐션을 집중합니다. 중간에 넣은 정보는 상대적으로 덜 활용됩니다. 실측 실험에서 Opus 4.6은 600K 컨텍스트에서 75% 깊이에 심어둔 정보를 제대로 회수하지 못하는 경우가 생겼습니다. 중요한 정보는 컨텍스트의 앞이나 뒤에 배치해야 합니다.

② Sonnet으로 1M을 쓰면 품질 손실이 큽니다

MRCR v2 벤치마크(대용량 문서에서 특정 정보 찾기) 기준으로 Opus 4.6은 1M 조건에서 76%를 기록했지만, Sonnet 4.5는 동일 조건에서 18.5%에 그쳤습니다. (출처: Anthropic 공식 블로그, 2026.02.05) 같은 1M 컨텍스트를 요금도 비싸게 내면서 4분의 1도 안 되는 정확도로 쓰는 셈입니다. 장기 컨텍스트가 필요하다면 Sonnet이 아닌 Opus 4.6으로 가야 합니다.

💡 같은 1M 컨텍스트를 Opus와 Sonnet 4.5가 얼마나 다르게 쓰는지 보면 격차가 선명합니다

Opus 4.6의 256K 기준 정확도는 93%입니다. 1M에서 76%로 떨어지는 것도 사실이지만, 경쟁사 Gemini 3 Pro의 동일 조건 26.3%보다는 훨씬 높습니다. 장기 컨텍스트에서는 아직 Opus 4.6이 가장 신뢰도 있는 선택입니다.

세션이 길어지면 응답 지연도 커집니다. 실측 기준 500K 콜드 스타트(캐시 없는 첫 요청)에서 첫 토큰까지 약 35초가 걸렸습니다. 1M에서는 60~90초로 추정됩니다. 캐시가 살아있는 경우 500K에서도 3.5초 수준이므로, 캐시 만료 전에 세션을 유지하는 것이 관건입니다. 캐시 TTL은 5분입니다.

▲ 목차로 돌아가기

실제로 써야 할 상황, 쓰면 손해인 상황

공식 발표 내용과 실측 실험 결과를 교차해서 보면, 1M 컨텍스트가 진짜 힘을 발휘하는 상황과 그렇지 않은 상황이 갈립니다.

✅ 이럴 때는 1M이 분명히 유리합니다

  • 대형 코드베이스 전체를 한 번에 읽혀야 할 때 — 멀티 파일 리팩토링, 크로스 파일 의존성 분석. 컨텍스트 조각내기 없이 전체를 한 패스로 처리합니다.
  • 400페이지 계약서·정책 문서 전문 분석 — 법률·컴플라이언스 업무에서 정확한 인용이 필요할 때 청킹 없이 전문을 넣을 수 있습니다.
  • 긴 버그 추적 세션 — 15개 파일에 걸친 디버깅에서 스택 트레이스·재현 조건·실패 기록을 전부 보존해야 할 때 컴팩션이 일어나면 필요한 정보가 사라집니다.
  • 멀티 에이전트 팀 공유 상태 — Claude Code의 에이전트 팀 기능에서 서브에이전트 보고서가 쌓여도 컨텍스트가 날아가지 않습니다.

❌ 이럴 때는 1M을 켜도 별 의미가 없습니다

  • 일상적인 Claude Code 세션 — 실측 결과 대부분의 세션은 컴팩션 전에 80~120K에서 끝납니다. 200K에도 못 미칩니다.
  • Sonnet 4.5 또는 Sonnet 4.6(미검증) 사용자 — Sonnet 4.5 기준 1M 정확도는 18.5%입니다. 비싼 요금을 내고 성능은 오히려 낮아집니다. Sonnet 4.6의 1M MRCR 수치는 아직 공개되지 않았습니다.
  • 자리를 자주 비우는 작업 환경 — 캐시 TTL 5분 이후 재요청 시 콜드 스타트 페널티(500K 기준 약 35초)가 발생합니다.
  • 80턴 이상 누적된 잡다한 대화 — 이 경우 /clear 후 새 세션이 오히려 낫습니다. 초반 탐색 내용이 어텐션을 잡아먹으면 현재 작업 집중도가 떨어집니다.

실제 사용자 피드백도 엇갈립니다. r/ClaudeCode에서 200K를 넘긴 세션을 850K까지 끌고 간 사례에서 “응답이 고집스럽고 느려진다(gets obstinate and stupid)”는 경험이 보고됐습니다. Anthropic이 “50만 토큰 전후로 컴팩션을 계획하는 게 좋다”고 권장하는 이유가 여기 있습니다.

▲ 목차로 돌아가기

Claude Code에서 활성화하는 방법

계정이 1M 컨텍스트를 지원하면 Claude Code의 모델 선택기(/model)에 해당 옵션이 보입니다. Max·Team·Enterprise 플랜에서는 Opus 4.6이 이미 기본값으로 활성화돼 있습니다.

명령어 형식:

/model opus[1m]
/model sonnet[1m]
/model claude-opus-4-6[1m]
/model claude-sonnet-4-6[1m]

모델을 선택해도 컨텍스트가 200K 아래면 추가 요금이 발생하지 않습니다. 선택 자체에는 비용이 없습니다. 모델 선택 후 세션을 200K 미만으로 유지하면 기존 단가 그대로입니다.

실용적인 세션 관리 팁

  • 현재 컨텍스트 사용량은 /context 명령어로 확인할 수 있습니다.
  • 150~200K 구간에서 컴팩션 또는 /clear를 계획하면 200K 경계를 넘지 않고 비용을 제어할 수 있습니다.
  • 대용량 코드베이스 분석처럼 단발성 1M 요청이 필요한 경우, 분석 후 컨텍스트를 정리하는 ‘단발 분석 후 정리’ 패턴을 씁니다.
  • 캐시 TTL이 5분이므로, 작업 중간에 6분 이상 자리를 비우면 콜드 스타트 페널티가 발생합니다. 커피 타이밍을 조절하는 게 실제로 의미 있습니다.

Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry를 통해서도 1M 컨텍스트를 사용할 수 있습니다. Vertex AI 기준 Opus 4.6의 최대 입력 토큰 한도는 1,000,000으로 명시돼 있습니다. (출처: Google Cloud Vertex AI 공식 문서, 2026.03.21)

▲ 목차로 돌아가기

Q&A

Q1. Pro 플랜($20/월)에서 1M 컨텍스트를 쓰면 얼마나 더 나오나요?

Pro는 구독 요금 안에 1M이 포함되지 않습니다. /model opus[1m]으로 선택한 뒤 200K를 넘으면 초과분이 추가 사용(extra usage)으로 청구됩니다. API 종량제와 동일하게 Opus 4.6 입력 $10.00/M, 출력 $37.50/M이 적용됩니다. 세션을 200K 아래로 유지하면 추가 요금은 없습니다.

Q2. Sonnet 4.6의 1M 성능은 어느 정도인가요?

Anthropic이 공식 MRCR v2 수치를 Sonnet 4.6에 대해서는 아직 공개하지 않았습니다. Sonnet 4.5는 1M 조건에서 18.5%를 기록했습니다. Sonnet 4.6이 개선됐을 가능성은 있지만, 수치가 나오기 전까지 장기 컨텍스트 작업에서는 Opus 4.6을 쓰는 게 안전합니다.

Q3. 컨텍스트 컴팩션과 1M 중 어느 쪽이 실제로 더 경제적인가요?

대부분의 일상 세션에서는 컴팩션이 훨씬 저렴합니다. 컴팩션 비용은 약 $0.21 수준이고, 이후 80K 컨텍스트로 재시작하면 세션당 비용이 크게 줄어듭니다. 반면 400K를 유지하는 세션은 컴팩션 후 80K 세션 대비 회당 약 5배 비용이 나옵니다. 1M이 비용 대비 유리한 경우는 단발성 대용량 분석처럼 한 번에 넣고 끝나는 상황입니다.

Q4. Enterprise 플랜은 기본 컨텍스트가 500K라던데, 1M으로 올리면 추가 요금이 있나요?

Enterprise는 기본 컨텍스트가 500K로 설정돼 있습니다. 1M으로 올리면 200K 초과분부터 추가 사용으로 청구됩니다. 단, Enterprise는 이 프로모션 대상에서 제외됩니다(2026년 3월 13~27일 한시 프로모션 기준). 정확한 Enterprise 계약 조건은 Anthropic 영업 채널을 통해 별도 확인이 필요합니다.

Q5. 1M 컨텍스트를 선택했는데 “The long context beta is not yet available for this subscription” 에러가 납니다.

2026년 2월 초 베타 시절에 많이 보고된 에러입니다. 3월 13일 GA 이후에도 간혹 발생합니다. Claude Code를 최신 버전으로 업데이트하고 세션을 재시작하면 해결되는 경우가 많습니다. 여전히 안 된다면 /model 명령어 없이 모델 선택기 UI를 사용해 보거나, Pro 구독자는 계정의 extra usage 설정이 활성화돼 있는지 확인하세요.

▲ 목차로 돌아가기

마치며

Claude Code 1M 컨텍스트는 분명 실용적인 업그레이드입니다. 대형 코드베이스를 조각내지 않고 통째로 읽히거나, 400페이지 계약서를 청킹 없이 분석하거나, 멀티 에이전트 팀의 공유 상태를 날리지 않고 유지하는 데서 효과가 분명합니다.

다만 솔직히 말하면, 일상적인 코딩 세션에서 1M이 체감될 일은 많지 않습니다. 대부분 80~120K에서 세션이 끝나고, 200K 경계를 넘는 순간 비용이 계단 함수처럼 뛰며, Opus가 아닌 Sonnet으로 쓰면 오히려 손해입니다. “1M 됩니다”는 말이 전부 맞지만, “그래서 더 좋아집니다”는 말은 상황에 따라 다릅니다.

Max·Team·Enterprise 사용자라면 일단 켜두는 건 공짜입니다. 단, 200K 경계를 의식하면서 쓰는 게 핵심입니다. 세션 관리 습관이 결국 품질과 비용 양쪽을 결정합니다.

본 포스팅은 2026년 3월 24일 기준으로 작성됐습니다. Claude Code 요금, 컨텍스트 윈도우 한도, 플랜별 적용 조건은 Anthropic의 정책 업데이트에 따라 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 최신 내용은 Anthropic 공식 문서를 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기