Claude Code 1M 컨텍스트, Pro 플랜엔 없습니다

Published on

in

Claude Code 1M 컨텍스트, Pro 플랜엔 없습니다

2026.03.13 GA 기준
Claude Code v2.1.75
Opus 4.6 / Sonnet 4.6

Claude Code 1M 컨텍스트,
Pro 플랜엔 없습니다

2026년 3월 13일, Anthropic이 Claude Opus 4.6과 Sonnet 4.6의 100만 토큰 컨텍스트 창을 정식 출시(GA)했습니다. 추가 요금 없이 전체 윈도우를 쓸 수 있다는 발표에 많은 개발자가 환호했는데, 막상 써보면 이 조건에 해당하는 플랜이 아니면 그림의 떡입니다.

1,000,000
최대 컨텍스트 토큰
15%↓
컴팩션 발생 감소
600장
요청당 미디어 한도
Pro 플랜
1M 컨텍스트 미포함

GA 전환, 뭐가 달라졌나요?

2026년 3월 13일 이전까지 1M 컨텍스트는 베타였습니다. anthropic-beta 헤더를 요청에 직접 포함해야 했고, 200K를 초과하는 요청엔 입출력 토큰당 2배 요금이 붙는 구조였습니다. 이 두 장벽이 한꺼번에 사라진 것이 이번 GA의 핵심입니다.

이제 Opus 4.6은 $5/$25(입력/출력, 100만 토큰당), Sonnet 4.6은 $3/$15입니다. 9K짜리 요청과 900K짜리 요청이 동일한 토큰당 단가로 청구됩니다. (출처: Anthropic 공식 블로그 claude.com/blog/1m-context-ga, 2026.03.13)

미디어 한도도 바뀌었습니다. 요청당 이미지 또는 PDF 페이지를 최대 600개까지 넣을 수 있습니다. 기존 100개에서 6배 늘었고, Claude Platform 네이티브는 물론 Microsoft Azure Foundry, Google Cloud Vertex AI에서도 즉시 적용됩니다. 이 수치가 의미하는 건 단순합니다. 400페이지짜리 계약서를 PDF 하나로 통째로 던져도 이제는 끊기지 않습니다.

▲ 목차로 돌아가기

Pro 플랜 쓴다면, 지금 이걸 먼저 확인하세요

💡 공식 발표문과 실제 플랜 구성을 같이 놓고 보니 이런 차이가 보였습니다. 발표문에는 “표준 요금으로 이용 가능”이라고 적혀 있지만, Claude Code 기준으로는 플랜 구분이 따로 존재합니다.

Anthropic의 공식 발표는 “1M 컨텍스트를 표준 가격으로 제공한다”고 했습니다. 그런데 Claude Code 사용자에 한해서는 플랜 분기가 명확합니다. 공식 발표문 원문: “1M context is now included in Claude Code for Max, Team, and Enterprise users with Opus 4.6.” Pro 플랜은 명시적으로 빠져 있습니다. (출처: claude.com/blog/1m-context-ga, 2026.03.13)

Anthropic의 Claude Code 팀 리드인 Boris Cherny도 Threads에서 직접 확인했습니다. “Pro and Sonnet users can opt in with /model”이라는 표현은 기본값이 아니라는 뜻입니다. Pro 플랜이라면 매 세션마다 수동으로 모델을 지정해야 하고, 혜택 자체도 제한적입니다. 월 $20짜리 Pro 구독자가 “이제 1M 됐다”는 뉴스를 보고 그대로 Claude Code를 실행하면, 여전히 200K 기본값으로 동작합니다.

플랜 1M 자동 적용 모델 비고
Max ✅ 자동 Opus 4.6 설정 불필요
Team ✅ 자동 Opus 4.6 설정 불필요
Enterprise ✅ 자동 Opus 4.6 설정 불필요
Pro ❌ 수동 수동 지정 /model 명령 필요, 제한 있음
API (직접) ✅ 자동 Opus 4.6 / Sonnet 4.6 표준 토큰 단가 적용

▲ 목차로 돌아가기

컴팩션이 줄었다는 말의 함정

이번 발표에서 Anthropic CPO Jon Bell이 직접 수치를 공개했습니다. “We’ve seen a 15% decrease in compaction events.” (출처: claude.com/blog/1m-context-ga, 2026.03.13) 이 문장을 읽으면 “이제 컴팩션 걱정 없다”고 느끼기 쉽습니다. 그런데 15% 감소는 곧 85%의 컴팩션은 여전히 일어난다는 뜻입니다.

Claude Code는 컨텍스트 창의 약 83.5%가 채워지면 자동 컴팩션을 트리거합니다. 이때 약 33K 토큰을 버퍼로 예약하고 이전 대화를 요약합니다. 1M 창이 되면 실제 사용 가능 공간은 약 83만 토큰입니다. 단순 계산으로는 200K 시대보다 5배 오래 버티지만, 복잡한 멀티 에이전트 태스크나 대용량 코드베이스 분석에서는 1시간 안에 830K를 소진하는 케이스가 실제로 보고되고 있습니다. (출처: claudefa.st/blog/guide/mechanics/1m-context-ga, 2026.03.14)

컴팩션이 발생하면 무엇이 문제인지는 Ramp의 소프트웨어 엔지니어 Anton Biryukov가 공식 발표문에서 직접 설명했습니다. “Then compaction kicks in. Details vanish. You’re debugging in circles.” 요약 과정에서 엣지 케이스, 중간 추론 결과, 파일 간 의존관계가 사라지고 Claude가 같은 문제를 반복 탐색하게 됩니다. 세션 초반에 쌓은 컨텍스트 품질이 높을수록 컴팩션의 타격이 더 크다는 점이 아이러니입니다.

▲ 목차로 돌아가기

5분 자리 비우면 비용이 다시 올라갑니다

💡 1M 컨텍스트를 절약 도구로 쓰려면 반드시 알아야 할 캐시 TTL의 함정입니다.

Anthropic의 프롬프트 캐싱은 한 번 처리된 토큰을 캐시에 저장해 이후 동일 세션에서 재사용 시 입력 비용의 약 90%를 절감합니다. 그런데 이 캐시의 유효시간(TTL)은 세션 비활성화 후 약 5분입니다. 커피 한 잔 마시고 돌아와 다음 프롬프트를 입력하면, 캐시가 만료되어 직전 대화 전체를 풀 가격으로 다시 읽어야 합니다.

실제 영향을 계산해보겠습니다. 세션에 Sonnet 4.6으로 20만 토큰이 쌓인 상태에서 5분 이상 비활성화 후 재개하면, 다음 요청 시 해당 20만 토큰의 재캐싱 비용이 발생합니다. Sonnet 4.6 입력 토큰 단가인 $3/100만 기준으로 계산하면 0.6달러(약 800원)가 단 한 번의 재개 메시지로 청구됩니다. (계산: $3 × 0.2 = $0.60) 이 수치가 중요한 이유는 세션을 길게 유지할수록 유리하다는 기대와 달리, 자주 끊기는 세션은 오히려 200K 시대보다 더 비쌀 수 있다는 뜻이기 때문입니다. (출처: Reddit r/ClaudeCode, 2026.03.13 실측 논의)

이 문제를 완화하는 방법으로는 Claude Code의 /loop 명령을 이용한 주기적 핑(ping)이 제안되고 있습니다. 다만 공식적으로 캐시 연장 목적의 사용을 보장하는 문서는 아직 존재하지 않습니다. 확인 필요 항목입니다.

▲ 목차로 돌아가기

긴 세션이 오히려 더 싸다는 게 사실인 이유

기존 Claude Code 사용자 사이에는 “30분마다 세션을 새로 시작해야 효율적이다”는 인식이 퍼져 있었습니다. 200K 창 시절엔 실제로 그 편이 나을 때가 많았습니다. 그런데 1M GA 이후 이 공식은 바뀌었습니다. 캐시가 살아있는 동안은, 세션을 끊지 않는 것이 토큰 비용을 낮춥니다.

구조를 따져보면 이렇습니다. API 호출은 매번 전체 대화 이력을 전송하는 무상태(stateless) 방식입니다. 세션을 새로 시작하면 동일한 컨텍스트를 다시 전송해야 하고, 그 시점엔 아직 캐싱이 되지 않았으므로 풀 가격이 부과됩니다. 반면 동일 세션을 유지하면 기존 토큰은 캐시 히트로 처리되어 입력 비용의 10%만 청구됩니다. 같은 900K짜리 작업을 하나의 연속 세션으로 마치는 게, 450K짜리 두 세션으로 나누는 것보다 비용이 낮습니다.

이 관점에서 보면 이번 1M GA의 핵심 혜택은 단순히 “더 많이 넣을 수 있다”가 아닙니다. 컴팩션 오버헤드를 피하면서 캐싱 효율을 극대화하는 구조로 세션 경제학이 바뀌었다는 게 진짜 변화입니다. 복잡한 코드베이스 리팩토링처럼 맥락이 누적될수록 성과가 좋은 작업에서 이 효과가 가장 크게 나타납니다. 단, 캐시 TTL 5분 제약을 고려할 때, 집중 작업 중에는 세션을 유지하고 완전히 다른 주제로 전환할 때만 새 세션을 시작하는 전략이 합리적입니다.

▲ 목차로 돌아가기

1M 창에서도 200K에서 멈추는 버그가 있습니다

⚠️ Claude Code v2.1.75 기준, GA 직후 보고된 활성 버그입니다. 2026.03.17 현재 공식 수정 여부는 확인 필요입니다.

GA 발표 직후 GitHub 이슈 트래커에 주목할 만한 버그 리포트가 올라왔습니다. Claude Max 플랜에서 Opus 4.6(1M 모델)을 사용하던 중, /context 명령이 claude-opus-4-6[1m] 197k/1000k tokens (20%)라고 표시하는 상황에서 “Context limit reached” 오류가 발생했습니다. 전체 컨텍스트의 20%만 사용했는데 세션이 강제 종료된 케이스입니다. (출처: github.com/anthropics/claude-code/issues/34158, 2026.03.13)

이 버그의 패턴은 모델 식별자가 올바르게 [1m]으로 표시되고 분모가 1000k로 잡혀 있음에도, 실제 세션 종료 임계치가 구버전의 200K 경계로 작동한다는 점입니다. 쉽게 말하면 모델명 표시와 실제 동작이 따로 놀고 있습니다. 이 문제는 롱 디자인 리뷰 세션, 다중 파일 읽기·수정 작업에서 재현됐으며 Claude Code v2.1.75 환경에서 확인됐습니다.

현재로선 세션 시작 전 /context로 실제 작동 모델을 먼저 확인하고, 문제가 지속될 경우 Claude Code를 최신 버전으로 업데이트하거나 /compact 대신 새 세션으로 전환하는 방법이 현실적인 우회책입니다. Anthropic 측은 이 이슈를 파악하고 있으나, 2026.03.17 기준 공식 패치 완료 여부는 확인 필요입니다.

▲ 목차로 돌아가기

Q&A

Claude.ai(웹)에서 쓰는 Pro 플랜도 1M 컨텍스트가 안 되나요?

Claude Code와 Claude.ai 웹/앱은 별개입니다. claude.ai 웹 인터페이스에서는 Free·Pro 플랜 모두 Sonnet 4.6이 기본 모델로 제공됩니다. Sonnet 4.6은 1M 컨텍스트를 지원하지만, 웹 채팅 인터페이스에서 실제로 100만 토큰을 채우는 경우는 드뭅니다. Claude Code에서 Max 이상 플랜이어야 1M이 자동 활성화된다는 내용이 이 글의 핵심입니다.

1M 컨텍스트로 모노레포 전체를 한 번에 로드하면 느려지지 않나요?

응답 속도는 컨텍스트 길이에 비례해 늘어납니다. 단순히 크기를 키우는 것보다 관련 없는 파일을 넣지 않는 게 속도와 품질 모두에 유리합니다. Anthropic도 공식적으로 “맥락 규율은 여전히 중요하다”고 강조하며, CLAUDE.md와 스킬 우선 로딩을 권장합니다. (출처: claudefa.st/blog/guide/mechanics/1m-context-ga)

Gemini나 GPT-4o와 비교하면 1M 컨텍스트 성능이 어떤가요?

Anthropic이 공개한 MRCR v2 벤치마크에서 Opus 4.6은 1M 토큰 지점에서 78.3% 정확도를 기록했으며, “프론티어 모델 중 해당 컨텍스트 길이에서 최고”라고 발표했습니다. 다만 이는 Anthropic 자체 측정 수치로, 독립 제3자 비교 벤치마크 결과는 2026.03.17 기준 아직 제한적입니다. (출처: claude.com/blog/1m-context-ga, 2026.03.13)

API로 직접 쓸 때 플랜 제한 없이 1M을 쓸 수 있나요?

API를 직접 호출하는 경우엔 플랜 구분 없이 Opus 4.6과 Sonnet 4.6 모두 1M 컨텍스트를 표준 가격으로 사용할 수 있습니다. Claude Code처럼 구독 플랜 구분이 적용되는 건 Claude Code 클라이언트 툴 한정입니다. AWS Bedrock, Google Vertex AI도 동일하게 표준 단가로 이용 가능합니다. (출처: claude.com/blog/1m-context-ga, 2026.03.13)

200K에서 멈추는 버그는 아직도 있나요?

Claude Code v2.1.75 기준으로 GitHub 이슈(#34158)에 보고된 버그입니다. 2026.03.17 현재 Anthropic 측의 공식 수정 완료 발표는 확인되지 않았습니다. Claude Code를 최신 버전으로 업데이트한 후에도 증상이 지속된다면 github.com/anthropics/claude-code/issues에서 최신 상태를 확인하는 것이 권장됩니다.

▲ 목차로 돌아가기

마치며

Claude Code 1M 컨텍스트 GA는 진짜 큰 변화입니다. 200K 시절엔 30분 넘는 집중 세션이 반드시 컴팩션으로 끊겼고, 그 대가로 중요한 추론 흐름이 날아갔습니다. 이 구조적 한계가 처음으로 완화됐다는 점은 부정하기 어렵습니다.

다만 이번 발표를 그대로 받아들이면 걸리는 지점이 몇 가지 있습니다. Max 이상 플랜이 아니면 Claude Code에서 자동 적용이 안 되고, 캐시 TTL을 모르고 쓰면 긴 세션이 오히려 더 비쌀 수 있으며, GA 직후에도 200K 경계에서 세션이 끊기는 버그가 보고되고 있습니다.

솔직히 말하면, 지금 이 시점에서 가장 합리적인 접근은 본인 플랜부터 확인하고, 집중 작업 중에는 자리를 5분 이상 비우지 않는 습관을 드리는 것입니다. 기술 자체는 좋아지고 있습니다. 다만 현실 조건을 한 겹씩 벗겨봐야 실제로 어떻게 써야 하는지가 보입니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

  1. Anthropic 공식 블로그 — 1M context GA 발표 (2026.03.13): claude.com/blog/1m-context-ga
  2. Anthropic 공식 발표 — Claude Sonnet 4.6 출시 (2026.02.17): anthropic.com/news/claude-sonnet-4-6
  3. claudefa.st 분석 — Claude Code 1M Context Window 실전 가이드 (2026.03.14): claudefa.st/blog/guide/mechanics/1m-context-ga
  4. GitHub Issue #34158 — 1M 모델에서 200K 경계 버그 보고 (2026.03.13): github.com/anthropics/claude-code/issues/34158
  5. Reddit r/ClaudeCode — 캐시 TTL 및 비용 실측 논의 (2026.03.13): reddit.com/r/ClaudeCode/comments/1rsva0y

⚠️ 본 포스팅은 2026년 3월 17일 기준으로 작성됐습니다. Claude Code v2.1.75 / Opus 4.6 / Sonnet 4.6 기준이며, 본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있습니다. 최신 정보는 반드시 Anthropic 공식 채널에서 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기