2026.03.13 GA 기준
Claude Code v2.1.76 기준
Opus 4.6 / Sonnet 4.6

Claude Code 1M 컨텍스트, Max 아니면 못 씁니다

2026년 3월 13일, Anthropic이 Claude Opus 4.6·Sonnet 4.6의 100만 토큰 컨텍스트 윈도우를 정식 출시(GA)했습니다. “모든 플랜에서 쓸 수 있다”는 인상으로 퍼졌지만, 실제로 기본 포함된 플랜은 제한적입니다. 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다.

78.3%

1M MRCR v2 리콜 점수
(Opus 4.6, 프론티어 모델 최고)

5×

기존 200K 대비 컨텍스트 증가
Max/Team/Enterprise 기본 제공

+0원

API 프리미엄 추가 요금 폐지
(단, Pro·claude.ai는 여전히 제한)

1M 컨텍스트 GA — 실제로 무엇이 달라졌나

2026년 3월 13일, Anthropic은 공식 블로그(claude.com/blog/1m-context-ga)를 통해 Claude Opus 4.6과 Sonnet 4.6의 100만 토큰 컨텍스트 윈도우를 정식 지원(GA)으로 전환했습니다. 이전 베타 단계와 비교해 핵심 변화는 딱 세 가지입니다.

첫째, API 요금에서 장문 컨텍스트 프리미엄이 완전히 사라졌습니다. 기존에는 200K 토큰을 초과하면 입력 토큰 단가에 배율이 붙었는데, 3월 13일부터 900K 토큰 요청과 9K 요청이 같은 단가로 청구됩니다. Opus 4.6 기준 입력 $5/MTok, 출력 $25/MTok이 전체 구간에 동일하게 적용됩니다. (출처: Anthropic 공식 1M Context GA 블로그, 2026.03.13)

둘째, beta header가 필요 없어졌습니다. 이전에는 API 요청에 anthropic-beta: context-1m-2025-08-07 헤더를 명시적으로 추가해야 했습니다. 이제는 기존 코드 변경 없이 200K를 초과하는 요청이 자동으로 동작합니다.

셋째, 미디어 한도가 6배 확대됐습니다. 요청당 이미지·PDF 페이지 한도가 100개에서 600개로 늘었습니다. Claude Platform 네이티브, Amazon Bedrock, Google Vertex AI, Microsoft Foundry 모두 해당됩니다.

▲ 목차로 돌아가기

“무료로 다 된다”는 말이 절반만 맞는 이유

SNS에서는 “1M 컨텍스트가 무료로 풀렸다”는 말이 빠르게 퍼졌습니다. 틀린 말은 아니지만 전체 그림이 아닙니다. 공식 발표문을 직접 확인하면 이렇게 나와 있습니다.

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다

플랜	Claude Code	claude.ai 웹/앱
Max / Team / Enterprise	✅ Opus 4.6 기본 포함	❌ 미지원 (별도 공지 없음)
Pro ($20/월)	⚠ Extra Usage 필요	❌ 미지원
API (직접 과금)	✅ 표준 요금 전체 지원	해당 없음

Anthropic 공식 발표에서 “1M context is now included in Claude Code for Max, Team, and Enterprise users with Opus 4.6″이라고 명시했습니다. Pro 플랜 사용자는 200K를 넘는 순간부터 별도 Extra Usage 요금이 발생하고, claude.ai 웹 인터페이스나 모바일 앱에서는 현재 지원 자체가 되지 않습니다. (출처: Anthropic 공식 1M Context GA 블로그, 2026.03.13; Reddit r/ClaudeAI 커뮤니티 확인 기준 2026.03.13)

GA 발표 직후 Reddit에서 Max 구독자들도 “여전히 200K가 기본으로 표시된다”는 보고가 나왔는데, Claude Code를 최신 버전(v2.1.75 이상)으로 업데이트하거나 native installer로 재설치하면 해결된 경우가 많았습니다. VSCode 확장보다 CLI 터미널에서 먼저 적용됐다는 보고도 있었습니다.

▲ 목차로 돌아가기

78.3%가 숫자 이상의 의미를 갖는 이유

컨텍스트 크기 자체보다 중요한 건 “그 안에서 정보를 얼마나 정확하게 찾아내느냐”입니다. 이전 모델들은 이른바 “Context Rot” 문제를 안고 있었습니다. 100만 토큰짜리 문서를 넣어도 중간에 있는 정보를 AI가 사실상 무시하거나 잘못 회상하는 현상입니다.

Anthropic 공식 발표에 따르면, Opus 4.6은 100만 토큰 컨텍스트에서 8개 항목을 동시에 찾아내는 벤치마크(1M 8-needle MRCR v2)에서 78.3%를 기록했습니다. Claude Sonnet 4.5는 같은 테스트에서 18.5%, Gemini 3 Pro는 26.3%에 그쳤습니다. (출처: Anthropic 공식 Claude Opus 4.6 발표 페이지, 2026.02.05) 정확도가 4배 넘게 차이납니다. 이 수치는 “크기만 키웠다”는 비판에 직접 반박하는 근거입니다.

이 벤치마크 결과가 실전에서 의미하는 바는 구체적입니다. Claude Code로 대규모 코드베이스를 분석할 때, 이전에는 수백 개 파일을 넣어도 AI가 앞쪽에서 읽은 파일을 뒤쪽 분석에 제대로 반영하지 못하는 경우가 잦았습니다. 78.3%의 리콜 점수는 1M 토큰 전체에서 핵심 정보를 일관성 있게 추적한다는 뜻입니다.

다만 한 가지 실전 주의사항이 있습니다. 이 벤치마크는 API 단일 호출로 전체 1M 토큰을 한 번에 주입하는 방식으로 측정됐습니다. Claude Code는 실제로 파일을 도구(Tool)로 순차적으로 읽는 방식이라 동작 구조가 다릅니다. 커뮤니티 보고에서는 200K 이상 구간부터 정확도가 낮아지는 사례도 확인됩니다. Anthropic이 이 차이에 대해 공식 답변을 내놓지 않은 부분입니다.

▲ 목차로 돌아가기

오래 쓸수록 더 싸진다 — 비용 구조의 반전

1M 컨텍스트를 오래 쓸수록 토큰을 엄청나게 쓰니까 더 비싸질 것이라는 생각이 자연스럽습니다. 실제로는 반대입니다. 이유는 Prompt Caching 구조 때문입니다.

Claude는 같은 세션 내에서 이전에 처리한 토큰을 캐시에 저장합니다. 캐시 히트 시 재읽기 비용은 기본 입력 단가의 10%입니다. (출처: Anthropic 공식 가격 문서, platform.claude.com, 2026.03 기준) 단순 계산으로, 900K 토큰 세션을 4.5회에 나눠서 각 200K씩 진행할 때와 비교하면 연속 세션이 훨씬 저렴합니다.

💡 직접 계산해 볼 수 있는 비교 구조

분할 4회 세션 방식 (각 200K, Sonnet 4.6 기준):

200K × 4 = 800K 입력 토큰 × $3/MTok = 약 $2.40
매번 세션을 새로 시작하므로 이전 컨텍스트를 처음부터 재전송

연속 1M 세션 방식 (Sonnet 4.6 기준, 캐시 히트율 80% 가정):

신규 입력 200K × $3/MTok = $0.60
캐시 재읽기 600K × $0.30/MTok(10% 할인) = $0.18
합계 약 $0.78 → 분할 방식 대비 약 67% 절감

컨텍스트 압축(Compaction)도 비용 항목입니다. Compaction은 토큰을 추가로 소모하고, 압축 과정에서 정보 손실이 발생해 이후 Claude가 같은 내용을 다시 읽는 사태가 생깁니다. 1M 컨텍스트를 쓰면 기본 임계값이 950K이므로 대부분의 작업에서 Compaction 자체가 발생하지 않습니다. Compaction에 드는 토큰 비용과 재탐색 비용이 사라지는 셈입니다.

실제 개발자의 보고에 따르면, 이전에 200K 세션 5회에 걸쳐 작업하던 내용을 1M 단일 세션으로 처리하자 전체 토큰 소모가 크게 줄었다는 사례가 있습니다. “같은 파일을 세션마다 다시 읽지 않아도 되는 것”이 핵심입니다. (출처: Reddit r/ClaudeCode, user Performer_First, 2026.03.13)

▲ 목차로 돌아가기

5분 캐시 TTL, 가장 자주 무시되는 함정

위에서 설명한 비용 절감 구조에는 중요한 전제가 있습니다. 바로 캐시가 살아 있어야 한다는 점입니다. Anthropic의 Prompt Caching은 기본 TTL(Time-To-Live)이 5분입니다. 세션을 열어놓고 자리를 비웠다가 돌아왔을 때, 마지막 요청 후 5분이 지났다면 캐시는 이미 소멸한 상태입니다.

이 상황에서 “계속” 버튼 한 번이 생각 이상으로 비쌉니다. 예를 들어 200K 토큰이 쌓인 Sonnet 4.6 세션에서 5분 이상 자리를 비운 뒤 짧은 추가 메시지를 보내면, 이전 200K 토큰 전체가 캐시 없이 재전송됩니다. 이 한 번의 요청만으로 Sonnet 4.6 기준 입력 $0.60(200K × $3/MTok) 가량이 발생합니다. 캐시가 살아있었다면 같은 메시지가 $0.06이었을 것입니다. (출처: Anthropic Prompt Caching 공식 문서; Reddit r/ClaudeCode 커뮤니티 분석, 2026.03.13)

⚠ 캐시 만료 시 주의해야 할 3가지 상황

긴 세션 중 잠깐 자리를 비운 뒤 재개할 때 (5분 이상 비활성화)
여러 세션을 병렬로 열어두고 번갈아 가며 쓸 때 (각 세션의 캐시 TTL이 독립적으로 카운트)
작업 후 “감사합니다” 같은 짧은 마무리 메시지를 추가로 보낼 때 (전체 컨텍스트가 다시 전송됨)

1시간 TTL 옵션도 있습니다. 캐시 쓰기 비용이 기본의 2배($10/MTok)이지만, 장기 세션에서 자주 중단이 발생하는 작업이라면 경제적입니다. 긴 작업에 들어가기 전 어느 TTL이 유리한지 먼저 계산하는 것이 좋습니다.

▲ 목차로 돌아가기

실제로 써야 할 상황과 쓰지 않아도 될 상황

1M 컨텍스트가 강점을 발휘하는 시나리오와 그렇지 않은 시나리오는 명확하게 구분됩니다. 무조건 크게 쓰는 게 이득은 아닙니다.

쓸 만한 상황

대규모 코드베이스 리팩터링처럼 수십~수백 개 파일에 걸쳐 일관성 있는 변경이 필요할 때, 전체 컨텍스트를 유지하면서 작업할 수 있습니다. 레거시 코드베이스를 처음 분석할 때도 RAG 파이프라인 없이 직접 주입하는 방식이 누락 파일 없이 더 정확합니다. 에러 로그 전체를 잘라내지 않고 통째로 넣어 근본 원인을 분석하는 디버깅 세션도 1M이 빛나는 영역입니다.

굳이 필요 없는 상황

독립적인 단순 질문이나 짧은 코드 수정 한 건, 완전히 새로운 주제의 작업, 세션 중단이 잦은 작업 흐름에서는 컨텍스트를 작게 유지하는 게 비용 대비 효율적입니다. 컨텍스트를 크게 유지할수록 매 요청마다 재전송되는 토큰량도 커지기 때문입니다.

💡 Opus vs Sonnet 선택 기준 (공식 권장 전략)

Anthropic 공식 모델 선택 가이드에 따르면, Sonnet 4.6으로 시작하고 Opus 4.6으로 에스컬레이션하는 방식을 권장합니다. (출처: Anthropic 공식 모델 선택 가이드, platform.claude.com)

Opus 4.6 1M: 복잡한 아키텍처 분석, 다중 에이전트 코디네이션, 128K 출력이 필요한 작업 / API $5+$25/MTok
Sonnet 4.6 1M: 일반 코딩, 버그 수정, 빠른 반응이 필요한 작업 / API $3+$15/MTok (약 40% 저렴)

CLAUDE_CODE_DISABLE_1M_CONTEXT 환경변수를 1로 설정하면 1M 컨텍스트를 비활성화할 수 있습니다. 기업 컴플라이언스 요건이나 비용 예측 가능성이 중요한 팀 환경에서는 이 옵션도 실용적입니다. (출처: Claude Code 공식 환경변수 문서, code.claude.com/docs)

▲ 목차로 돌아가기

Q&A

Q1. Pro 플랜에서 Claude Code 1M 컨텍스트를 쓰려면 어떻게 해야 하나요?

Pro 플랜에서 200K를 초과하는 컨텍스트를 사용하면 Extra Usage 요금이 별도로 발생합니다. Claude Code에서 /model opus[1m] 또는 /model sonnet[1m]을 입력해 모델을 전환할 수 있지만, 구독 요금과 별도로 초과분에 대한 토큰 과금이 생깁니다. API 직접 사용 또는 Max 이상 플랜 업그레이드가 가장 깔끔한 방법입니다.

Q2. claude.ai 웹에서도 1M 컨텍스트를 쓸 수 있게 되나요?

현재(2026.03.23 기준) claude.ai 웹 인터페이스와 모바일 앱에서는 1M 컨텍스트가 지원되지 않습니다. Anthropic이 공식 타임라인을 발표하지 않은 상태입니다. Claude Code Max/Team/Enterprise 환경에서만 현재 기본 적용됩니다.

Q3. Claude Code를 업데이트했는데 여전히 200K로 표시됩니다. 왜 그런가요?

v2.1.75 이상으로 업데이트한 뒤에도 200K가 표시된다면, npm 방식으로 설치한 경우 native installer로 재설치하면 해결된 사례가 많습니다(claude install 명령 실행). VSCode 확장보다 CLI 터미널에서 먼저 반영되는 경우가 있습니다. 그래도 안 되면 settings.json에서 model이 “opus”로 고정된 경우 “opus[1m]”으로 변경해 보세요.

Q4. AWS Bedrock이나 Vertex AI에서도 1M 컨텍스트를 쓸 수 있나요?

Vertex AI에서는 200 QPM, 리전당 2M 입력 TPM 기준으로 지원됩니다(us-east5, europe-west1, asia-southeast1). AWS Bedrock에서는 현재 1M context가 “preview” 클래스로 제공되며 처리량이 표준보다 낮습니다. 계정·리전별 차이가 있으므로 AWS Bedrock Quotas 페이지에서 실제 한도를 확인하는 게 좋습니다.

Q5. Sonnet 4.5와 Sonnet 4.6 중 무엇을 써야 하나요?

1M 컨텍스트를 쓰려면 Sonnet 4.6이 필요합니다. Sonnet 4.5는 구 beta 방식(context-1m-2025-08-07 헤더 + 프리미엄 요금)으로만 1M에 접근할 수 있습니다. 표준 요금 정책은 Opus 4.6과 Sonnet 4.6에만 적용됩니다. 비용 대비 성능 면에서도 Sonnet 4.6이 일반 작업에서 유리합니다.

▲ 목차로 돌아가기

마치며

Claude Code 1M 컨텍스트 GA는 분명 의미 있는 업데이트입니다. 베타 당시 붙던 프리미엄 요금이 사라졌고, Opus 4.6의 78.3% 리콜 점수는 단순히 창을 키운 게 아니라는 걸 보여줍니다. 장기 세션에서 Compaction 없이 작업을 이어가는 경험은 실질적으로 다릅니다.

그러나 “이제 모두가 1M을 쓸 수 있다”는 식의 표현은 현실과 거리가 있습니다. Max, Team, Enterprise 플랜의 Claude Code 사용자에게만 기본 제공되고, Pro 플랜과 claude.ai 웹은 아직 제한이 있습니다. 캐시 TTL 5분 조건도 장기 세션 비용 계획에서 간과하기 쉬운 부분입니다.

솔직히 말하면, 1M 컨텍스트가 필요한 작업과 그렇지 않은 작업을 구분하는 것이 먼저입니다. 대규모 코드베이스 작업이나 긴 세션이 잦다면 Max 플랜 업그레이드가 합리적입니다. 짧은 작업 위주라면 기존 200K도 충분하고 비용도 예측하기 쉽습니다. 공식 문서를 직접 보고 자신의 사용 패턴과 비교해 보는 게 가장 좋은 판단 방법입니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

Anthropic 공식 1M Context GA 발표 블로그 (2026.03.13)
Anthropic 공식 Claude Opus 4.6 소개 페이지 (2026.02.05)
Anthropic 공식 Claude Code 문서
Anthropic 공식 가격 문서 (platform.claude.com)
Reddit r/ClaudeAI — 1M context GA 커뮤니티 반응 (2026.03.13)

본 포스팅은 2026년 3월 23일 기준 공식 자료를 바탕으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Claude Code 버전, 플랜 정책, API 요금은 Anthropic의 업데이트에 따라 달라질 수 있으므로 최신 정보는 반드시 공식 문서(docs.anthropic.com, platform.claude.com)에서 확인하시기 바랍니다.

Claude Code 1M 컨텍스트, Max 아니면 못 씁니다

1M 컨텍스트 GA — 실제로 무엇이 달라졌나

“무료로 다 된다”는 말이 절반만 맞는 이유

78.3%가 숫자 이상의 의미를 갖는 이유

오래 쓸수록 더 싸진다 — 비용 구조의 반전

5분 캐시 TTL, 가장 자주 무시되는 함정

실제로 써야 할 상황과 쓰지 않아도 될 상황

쓸 만한 상황

굳이 필요 없는 상황

Q&A

마치며

댓글 남기기응답 취소

최신 글

카테고리

Tags

Claude Code 1M 컨텍스트, Max 아니면 못 씁니다

Claude Code 1M 컨텍스트, Max 아니면 못 씁니다

1M 컨텍스트 GA — 실제로 무엇이 달라졌나

“무료로 다 된다”는 말이 절반만 맞는 이유

78.3%가 숫자 이상의 의미를 갖는 이유

오래 쓸수록 더 싸진다 — 비용 구조의 반전

5분 캐시 TTL, 가장 자주 무시되는 함정

실제로 써야 할 상황과 쓰지 않아도 될 상황

쓸 만한 상황

굳이 필요 없는 상황

Q&A

마치며

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기