Claude Code / Opus 4.6 기준
GA(정식 출시)
Claude Code 1M 컨텍스트,
Pro 플랜은 자동이 아닙니다
2026년 3월 13일, Anthropic이 Claude Code의 100만 토큰 컨텍스트 윈도우를 정식 출시(GA)했습니다. 추가 요금 없이 전체 1M 창을 그대로 쓸 수 있다는 발표가 나오자 반응이 뜨거웠는데요. 막상 들여다보면 “자동으로 켜지는 플랜”과 “직접 켜야 하는 플랜”이 나뉩니다. 이 차이를 먼저 짚어야 제대로 쓸 수 있습니다.
3월 13일에 정확히 무엇이 바뀌었나
Claude Code의 1M 컨텍스트 윈도우는 사실 새로 생긴 게 아닙니다. Opus 4.6 출시(2026.02.05) 때부터 베타로 존재했지만, 200K를 넘으면 입력 토큰 요금이 2배로 올라가는 구조였습니다. 입력 기준으로 Opus 4.6은 $5/M이었지만, 200K 초과 시 $10/M이 적용됐습니다. (출처: Anthropic 공식 가격 문서)
3월 13일부로 이 할증이 사라졌습니다. 900K짜리 요청이나 9K짜리 요청이나 같은 단가를 냅니다. Anthropic GA 블로그에 “a 900K-token request is billed at the same per-token rate as a 9K one”이라고 직접 나와 있습니다. 가격 하나가 없어진 것이지만, 장시간 세션을 돌리는 사람에게는 체감이 꽤 다릅니다.
💡 공식 발표와 실제 청구 구조를 나란히 보면 이런 차이가 있습니다
베타 때(~2026.03.12)는 200K를 1토큰이라도 넘으면 해당 요청의 전체 토큰이 2배 요금으로 청구됐습니다. 199K에서 201K로 2,000토큰만 늘려도 요금이 두 배가 됐다는 뜻입니다. (출처: claudecodecamp.com 실측 분석) 이제 이 구조가 완전히 없어졌습니다.
GA와 함께 미디어 한도도 바뀌었습니다. 요청당 이미지·PDF 업로드 한도가 기존 100개에서 600개로 6배 늘었습니다. Claude Platform 외에 Amazon Bedrock, Google Vertex AI, Microsoft Foundry에서도 동시 지원합니다. (출처: claude.com/blog/1m-context-ga)
Pro 플랜 사용자가 반드시 알아야 할 것
발표문을 읽으면 “1M 컨텍스트가 이제 모두에게 무료”처럼 읽힙니다. 그런데 Anthropic GA 블로그의 실제 문장은 이렇습니다.
“1M context is now included in Claude Code for Max, Team, and Enterprise users with Opus 4.6. Opus 4.6 sessions can use the full 1M context window automatically.”
(출처: claude.com/blog/1m-context-ga, 2026.03.13)
Max, Team, Enterprise는 자동입니다. 별도 설정 없이 Opus 4.6 세션이 1M으로 켜집니다. 그러나 Pro 플랜은 기본값이 아닙니다. Claude Code에서 /extra-usage 명령어를 직접 입력해야 1M 컨텍스트가 활성화됩니다.
⚠️ Pro 플랜 사용 중이라면: GA 발표가 났다고 해서 1M이 자동으로 켜지지 않습니다. /extra-usage를 입력한 뒤에야 긴 세션에서 컨텍스트가 200K 이상 유지됩니다.
이 설계가 단순한 기술적 이유만은 아닙니다. karozieminski.substack.com의 분석에 따르면, Anthropic 전체 매출의 70~75%가 API·토큰 기반 과금이고 Claude Code 기여분은 약 18%입니다. Max/Team/Enterprise에만 자동 적용하는 것은 상위 플랜 업그레이드를 유도하는 동시에 마진을 보호하는 구조입니다. Pro 사용자가 opt-in을 놓치면 Anthropic 입장에서는 표준 요금 구간이 유지됩니다.
1M 켜면 요금이 얼마나 나올까
“추가 할증 없다”는 건 사실이지만, 컨텍스트가 커지면 당연히 토큰 수가 늘고 요금도 오릅니다. 단순 계산식으로 감을 잡아보겠습니다.
| 시나리오 | 입력 토큰 | Opus 4.6 기준 비용 | 비고 |
|---|---|---|---|
| 일반 코딩 세션 | 80~120K | 약 $0.40~$0.60 | 표준 요금 |
| 대형 코드베이스 단발 분석 | 약 900K | 약 $4.50 | GA 이후 할증 없음 |
| 에이전트 루프 반복 실행 (10회) | 500K × 10회 | 약 $25.00+ | 루프 설계 주의 필요 |
| GA 이전 200K 초과 1회 | 201K (기존 2x) | 약 $2.01 (구 요금) | 지금은 $1.01 → 절반 |
(입력 토큰만 기준. 출력 토큰 $25/M 별도. 출처: Anthropic 공식 가격 문서 / claudecodecamp.com 실측)
에이전트 루프가 위험합니다. 실제로 개발자 Anton Biryukov는 하나의 도구 호출이 데이터베이스 전체를 끌어다 800K 토큰을 소비한 사례를 공유했습니다. (출처: Anthropic GA 블로그) 창이 커질수록 실수로 집어넣는 양도 커집니다. 요금 폭탄은 컨텍스트 크기가 아니라 설계 실수에서 옵니다.
💡 컨텍스트를 키웠더니 오히려 토큰이 줄었다는 사례가 있습니다
AI 리서치 리드 Izzy Miller는 “Opus 컨텍스트를 200K에서 500K로 올렸더니 에이전트가 더 효율적으로 작동하면서 전체 토큰 사용량이 오히려 줄었다”고 밝혔습니다. (출처: Anthropic GA 블로그) 작은 창에서 같은 정보를 여러 번 다시 조회하던 오버헤드가 사라진 덕분입니다. 무조건 작게 유지하는 게 능사가 아닙니다.
Sonnet으로 1M 쓰면 안 되는 이유
요금이 저렴하다는 이유로 Sonnet 4.6에서 1M 창을 쓰는 경우가 있는데, 실측 결과를 먼저 확인해야 합니다.
claudecodecamp.com의 실측 실험에서, 텍스트 문서 안에 심어둔 특정 정보(“Sarah Chen의 보너스 금액”)를 각 맥락 길이별로 찾아내는 테스트를 했습니다. Sonnet 4.5 기준 결과입니다.
| 컨텍스트 길이 | 25% 위치 | 50% 위치 | 75% 위치 |
|---|---|---|---|
| 50K | ✅ 정확 | ✅ 정확 | ✅ 정확 |
| 200K | ✅ 정확 | ✅ 정확 | ⚠️ 일부 오류 |
| 400K | ⚠️ 일부 오류 | ❌ 오답 | ❌ 오답 |
| 600K | ❌ 오답 | ❌ 오답 | ❌ 오답 |
(출처: claudecodecamp.com Sonnet 4.5 실측 / Sonnet 4.6 공식 수치 미발표)
MRCR v2 벤치마크에서 Sonnet 4.5의 1M 점수는 18.5%입니다. Opus 4.6의 78.3%와 비교하면 4배 이상 차이가 납니다. (출처: Anthropic GA 발표 / claudecodecamp.com 분석) Sonnet 4.6의 공식 수치는 아직 발표되지 않아, 현재 기준으로 긴 컨텍스트 작업은 Opus 4.6이 안전합니다.
컨텍스트 중간에 들어간 정보가 잘 무시된다는 것이 핵심입니다. 시작과 끝은 잘 기억하지만, 중간에 묻힌 내용은 흘려보내는 경향이 있습니다. 정말 중요한 조건, 제약사항, 설계 결정은 맥락의 맨 앞이나 맨 뒤에 두는 것이 훨씬 안전합니다.
1M 컨텍스트가 실제로 도움이 되는 상황
대부분의 일반 코딩 세션은 80~120K에서 컴팩션이 발생합니다. 200K에도 닿지 않는 경우가 많습니다. 1M이 진짜 의미를 갖는 상황은 따로 있습니다.
여러 파일에 걸친 버그 추적, 전체 아키텍처 리뷰를 한 세션에 넣을 수 있습니다. 여러 번 잘라 넣던 청킹 작업이 필요 없어집니다.
600개 PDF를 한 요청에 넣을 수 있습니다. 계약서 패키지 전체, 규정 문서 라이브러리를 한 번에 분석할 수 있습니다.
도구 호출 결과, 로그, 중간 추론 내역이 쌓여도 컴팩션 없이 유지됩니다. 초반에 내린 설계 결정을 끝까지 기억합니다.
여러 모듈 간 상호작용에서 발생하는 버그는 전체를 동시에 봐야 잡힙니다. 파일 간 의존 관계를 잃지 않고 추적할 수 있습니다.
💡 GPT-5.4 API와 비교하면 가격 구조가 다릅니다
GPT-5.4 API는 272K 입력 토큰을 넘으면 입력 요금이 2배로 올라가고, 이 할증이 세션 전체에 소급 적용됩니다. 250K짜리 요청과 300K짜리 요청의 비용 차이가 2배에 달합니다. (출처: karozieminski.substack.com 분석) Claude의 GA는 이 구조를 완전히 없앤 것으로, 긴 세션을 API로 자주 돌리는 팀에게는 선택 이유가 됩니다.
더 크다고 더 좋지는 않습니다 — 실측 데이터로 확인한 한계
가장 자주 오해하는 부분입니다. 1M 창이 켜진다고 모든 세션에서 쓸 필요는 없고, 오히려 역효과가 나는 경우도 있습니다.
첫 메시지 대기 시간이 급격히 늘어납니다. claudecodecamp.com 실측 기준, 500K 토큰 콜드 요청의 첫 토큰 대기 시간(TTFT)은 약 35초입니다. 캐시가 있으면 3.5초로 줄지만, 세션에서 5분 이상 자리를 비우면 캐시가 만료됩니다. 돌아와서 첫 메시지를 보내면 다시 35초를 기다려야 합니다. 1M에 가까울수록 이 시간은 60~90초로 늘어날 것으로 추정됩니다. (출처: claudecodecamp.com 실측)
컨텍스트가 커질수록 집중력이 흩어집니다. Hacker News에서 개발자들이 공유한 경험 중, 세션 초반에 명시적으로 “이 방향은 안 된다”고 정해둔 결정을 Opus가 한참 뒤에 무시하고 다시 시도하는 패턴이 보고됐습니다. 큰 맥락 안에 너무 많은 정보가 쌓이면, 중반부 결정이 희석되는 현상입니다. (출처: Hacker News 커뮤니티 경험)
장시간 세션보다 /clear + 재시작이 나을 때도 있습니다. 80턴 이상 쌓인 세션에는 초반의 탐색적 대화, 버린 아이디어들이 그대로 남아 있습니다. 모델이 불필요한 초반 정보에 주의를 낭비할 수 있습니다. 새 목표가 생겼을 때 맥락을 비우고 다시 시작하는 것이 결과적으로 더 명확한 답을 얻는 경우가 많습니다.
결국 1M 창이 빛을 발하는 건 단발 대형 분석입니다. 전체 코드베이스를 한 번에 넣고 질문하는 형태, 수백 페이지 문서를 한 번에 검토하는 형태에서 이 구조가 제일 효율적입니다. 대화를 수십 턴씩 이어가는 일반 세션에서는 캐시 관리와 세션 재시작이 1M보다 더 실용적인 선택이 될 수 있습니다.
자주 나오는 질문 5가지
Q1. Pro 플랜인데 1M 컨텍스트를 쓰려면 정확히 어떻게 해야 하나요?
Claude Code 세션에서 /extra-usage를 입력하면 됩니다. 이 명령어를 입력하지 않으면 200K 이상에서 컴팩션이 발생합니다. Max/Team/Enterprise는 별도 설정 없이 자동으로 1M이 적용됩니다. (출처: Anthropic GA 발표, 2026.03.13)
Q2. Sonnet 4.6과 Opus 4.6 중 어느 쪽으로 1M을 써야 하나요?
긴 컨텍스트 작업은 Opus 4.6이 안전합니다. MRCR v2 점수가 Opus 4.6은 78.3%인 반면, Sonnet 4.5는 18.5%로 4배 이상 차이가 납니다. Sonnet 4.6의 공식 수치는 아직 발표되지 않았습니다. 실측에서도 Sonnet은 400K 이상에서 빠르게 정확도가 떨어집니다. (출처: Anthropic GA 발표 / claudecodecamp.com 실측)
Q3. 이제 RAG 파이프라인을 안 써도 되나요?
수백만 건 이상의 대규모 지식베이스에는 여전히 RAG가 필요합니다. 그러나 특정 계약 패키지, 특정 코드베이스처럼 경계가 명확한 문서 세트라면 1M 창에 직접 넣는 것이 청킹·검색 파이프라인 없이 더 단순하고 정확할 수 있습니다. (출처: mindstudio.ai 분석)
Q4. 1M을 쓰면 캐시 할인도 그대로 받나요?
GA 이후에는 표준 요금에 캐시 할인이 그대로 적용됩니다. 이전에는 200K 초과 시 캐시 리드 요금에도 2배 할증이 붙었습니다. 지금은 캐시 워밍이 되어 있으면 500K 요청도 TTFT 3~4초 수준으로 처리됩니다. 단, 캐시 유효 시간은 5분이므로 자리를 오래 비우면 콜드 리스타트 패널티가 발생합니다. (출처: claudecodecamp.com 실측)
Q5. GPT-5.4 API와 비교해서 어떤 쪽이 유리한가요?
긴 세션을 자주 돌리는 팀에게는 Claude가 유리합니다. GPT-5.4 API는 272K 초과 시 입력 요금 2배 할증이 세션 전체에 소급 적용됩니다. GPT-4.1 API는 $2/M 플랫 과금으로 Claude와 유사한 구조지만, 장문 컨텍스트 정확도 벤치마크는 공개된 수치가 적습니다. (출처: karozieminski.substack.com 분석)
마치며 — 큰 창이 생겼다고 달라지는 건 절반뿐입니다
솔직히 말하면, 이번 GA가 모든 사람에게 즉각적인 변화를 가져다주지는 않습니다. 일반 코딩 세션에서는 200K도 잘 닿지 않기 때문입니다. 그리고 Pro 플랜이라면 opt-in을 직접 해야 하고, Sonnet을 쓰고 있다면 400K 이상에서 정확도를 믿기 어렵습니다.
이번 변화가 진짜 의미 있는 사람들은 세 부류입니다. 첫째, 대형 코드베이스를 단발로 분석하는 개발자. 둘째, 장시간 에이전트를 API로 운영하는 팀. 셋째, 가격 때문에 GPT 대신 Claude로 넘어올지 고민하던 API 빌더들입니다.
컨텍스트를 늘리는 것만큼, 무엇을 넣을지 신중하게 고르는 것이 여전히 중요합니다. 큰 창은 잘 쓰면 강력한 도구지만, 무심코 모든 걸 집어넣으면 요금 청구서가 먼저 반응합니다. 에이전트 루프 설계는 이전과 다름없이 조심해야 합니다.
결론부터 말씀드리면 — Opus 4.6으로 대형 코드베이스나 문서를 단발 분석하는 용도에서는 확실히 좋아졌습니다. 그 외의 일반 세션에서는 세션 관리 습관이 1M보다 더 큰 영향을 줍니다.
본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 요금·한도·기능은 Anthropic 공식 페이지에서 최신 정보를 확인하시기 바랍니다. (기준일: 2026.03.13 / Claude Code GA 기준)


댓글 남기기