2026.03.13 GA 기준 / Claude Opus 4.6 · Sonnet 4.6

Claude Code 1M 컨텍스트,
무료라는 말이 절반만 맞습니다

추가 요금이 사라진 건 맞습니다. 그런데 200K 경계를 넘는 순간 가격 구조가 한 번 더 바뀝니다. Sonnet으로 1M을 쓰면 정확도가 반 토막 납니다. 세션을 어떻게 운영하느냐에 따라 비용이 5배까지 벌어집니다.

Opus 4.6 MRCR 78.3%
Compaction 15% 감소
미디어 한도 6배 확대

GA로 뭐가 바뀌었나 — 핵심 3가지

2026년 3월 13일, Anthropic이 Claude Code 1M 컨텍스트를 정식 출시했습니다. 공식 블로그 발표에서 직접 확인한 변경 내용은 세 가지입니다.

첫째, 장거리 요금 프리미엄이 없어졌습니다. Opus 4.6 기준 입력 $5/MTok, 출력 $25/MTok — 1K짜리 요청과 900K짜리 요청이 토큰당 같은 단가를 씁니다. (출처: Anthropic 공식 블로그 claude.com/blog/1m-context-ga, 2026.03.13)

둘째, 미디어 한도가 6배 늘었습니다. 이미지·PDF 페이지를 요청당 최대 600개까지 넣을 수 있습니다. 기존 100개 한도에서 바뀐 것입니다. 대형 기술 문서나 계약서를 한 번에 분석하는 워크플로에서 즉시 효과가 납니다.

셋째, Claude Code Max·Team·Enterprise 플랜은 별도 설정 없이 자동으로 1M이 붙습니다. Opus 4.6 세션은 기본값이 1M이고, 200K를 초과해도 compaction이 예전보다 훨씬 늦게 발동합니다. Anthropic CPO Jon Bell은 compaction 이벤트가 15% 줄었다고 밝혔습니다. (출처: 동일 공식 블로그)

결론부터 말하면, “추가 요금 없는 1M”은 사실입니다. 그런데 바뀐 것과 바뀌지 않은 것을 구분하지 않으면 쓰다가 청구서에서 당황합니다.

▲ 목차로 돌아가기

200K 경계가 여전히 존재하는 이유

많은 글이 “GA 이후 가격 프리미엄이 사라졌다”고 끝냅니다. 그런데 GA 이전 가격 구조를 보면 왜 이 선이 중요한지 알 수 있습니다.

💡 GA 이전 가격표를 같이 놓고 보면 이 선이 왜 생겼는지 보입니다

구분	~200K	200K 초과 (이전)	GA 이후
Opus 4.6 입력	$5/M	$10/M (2배)	$5/M (균일)
Opus 4.6 출력	$25/M	$37.5/M (1.5배)	$25/M (균일)
Sonnet 4.6 입력	$3/M	$6/M (2배)	$3/M (균일)

(출처: claudecodecamp.com 실측 실험 보고서, 2026.03.13 / Anthropic 공식 가격 페이지 platform.claude.com/docs/en/about-claude/pricing)

GA 이전에 201K 토큰 요청을 보내면 201K 전체에 2배 단가가 붙었습니다. 199K는 $0.995, 201K는 $2.01 — 2K 토큰 차이에 비용이 2배로 뛰었습니다. 이 선은 Anthropic이 서버 인프라 비용을 반영한 결과였습니다. 1M짜리 세션은 GPU 메모리를 다른 사용자와 공유하지 않고 단독으로 점유하기 때문에, 여러 세션을 병렬로 처리할 수 없었습니다.

GA 이후 가격 프리미엄은 사라졌습니다. 그런데 200K 경계 자체가 Claude Code 동작에서 사라진 것은 아닙니다. Claude Code는 컨텍스트가 약 83.5% 찼을 때 auto-compaction을 발동합니다. 200K 세션이면 134K, 1M 세션이면 802K까지 쓰고 첫 번째 compaction이 시작됩니다. (출처: paddo.dev “Context Stops Being Scarce”, 2026.03) 5배 더 긴 세션을 유지할 수 있게 된 것이지, compaction이 사라진 것이 아닙니다.

GA로 없어진 것은 “200K 이상 쓸 때 내는 벌금”입니다. 하지만 1M짜리 긴 대화를 계속 이어가면 토큰이 쌓이고, 쌓이는 만큼 매 턴마다 내는 비용도 함께 늘어납니다.

▲ 목차로 돌아가기

Sonnet으로 1M 쓰면 생기는 문제

Sonnet 4.6도 1M 컨텍스트를 지원합니다. 가격은 입력 $3/MTok — Opus의 절반이 안 됩니다. 그런데 막상 1M 길이에서 성능이 어떤지를 공식 수치로 확인하면 생각이 달라집니다.

💡 공식 발표 수치와 실측 수치를 같이 놓으면 이 차이가 명확합니다

모델	MRCR v2 @1M	MRCR @256K	실측 검색 @600K
Opus 4.6	78.3%	93%	부분 오류 시작
Sonnet 4.5	18.5%	미공개	400K부터 불안정

(출처: Anthropic 공식 블로그 claude.com/blog/1m-context-ga, 2026.03.13 / claudecodecamp.com 실측 실험 Needle in Haystack)

MRCR(Multi-Round Coreference Resolution)은 긴 컨텍스트에서 여러 번 등장하는 정보를 정확히 추적하는 능력을 측정합니다. Opus 4.6이 1M에서 78.3%를 기록한 반면, Sonnet 4.5는 18.5%에 그쳤습니다. Anthropic이 Sonnet 4.6의 MRCR 수치는 아직 공개하지 않았습니다.

claudecodecamp.com이 실제 API를 호출해 측정한 결과, Sonnet 4.6은 400K 컨텍스트에서 검색 정확도가 불안정해지기 시작했습니다. 800K짜리 코드베이스를 한 번에 넣고 분석을 맡긴다면, 가격이 싸더라도 결과를 신뢰하기 어렵습니다.

긴 컨텍스트 작업은 Opus 4.6을 써야 합니다. 짧은 루틴 작업은 여전히 Sonnet이 낫고, 단순 서브에이전트에는 Haiku도 충분합니다. 모델을 고르는 기준이 “어떤 게 최신이냐”가 아니라 “컨텍스트 길이가 얼마나 되냐”로 바뀐 것이 3월 13일 이후의 변화입니다.

▲ 목차로 돌아가기

컨텍스트를 채울수록 집중도가 떨어집니다

“1M이 생겼으니까 다 집어넣으면 된다”는 생각은 실제 동작과 다릅니다. 트랜스포머 모델이 긴 컨텍스트에서 보이는 구조적 현상 때문입니다.

💡 이 패턴은 공개된 연구 데이터와 실사용 수치를 같이 보면 납득이 됩니다

Stanford·Princeton·Anthropic 세 곳이 독립적으로 확인한 “lost in the middle” 현상이 있습니다. 모델은 컨텍스트의 앞 부분과 뒷 부분에는 주의를 잘 기울이지만, 중간에 있는 정보는 지나치는 경향이 있습니다. Liu et al.(2024) 연구에서는 관련 정보가 중간으로 이동하면 성능이 30% 이상 떨어졌습니다. Anthropic이 Claude 2.1 테스트 중 발견한 것도 같은 패턴이었습니다. 컨텍스트에 정보가 있었는데도 정확도가 27%였다가, 프롬프트에 “이 정보가 중요합니다”는 문장을 하나 추가하자 98%로 올랐습니다. 모델이 정보를 갖고 있었지만, 어디를 봐야 할지 몰랐던 것입니다.

paddo.dev의 분석에서 인용된 12-factor agents 프레임워크는 “컨텍스트 윈도우의 40%를 초과하면 성능이 불안정해지기 시작한다”고 표현했습니다. (출처: paddo.dev, 2026.03) 1M의 40%는 400K입니다. 이 수치가 절대적인 기준은 아니지만, 긴 컨텍스트를 무조건 채우는 것이 오히려 역효과를 낼 수 있다는 실무 경고로 읽는 것이 맞습니다.

Anthropic 공식 컨텍스트 엔지니어링 가이드는 “최소한의 고신호 토큰”을 목표로 삼으라고 권합니다. 1M은 상한을 준 것이지, 기본값으로 모두 채우라는 뜻이 아닙니다.

실제로 Claude Code 공식 비용 문서에서 추천하는 방법은 세 가지입니다: /clear로 무관한 작업 사이 컨텍스트를 끊기, 서브에이전트에 무거운 작업을 위임하기, CLAUDE.md를 500줄 이하로 유지하기. (출처: code.claude.com/docs/en/costs)

▲ 목차로 돌아가기

세션 운영 방식이 비용을 결정합니다

가격이 균일해졌다고 해서 모든 사용 패턴이 같은 비용이 되는 건 아닙니다. 세션을 어떻게 운영하느냐에 따라 같은 작업을 하더라도 비용이 크게 달라집니다.

Claude Code의 캐시 TTL은 5분입니다. 캐시가 살아있을 때 500K 컨텍스트에서 새 메시지를 보내면 응답 시작까지 약 3.5초가 걸립니다. 캐시가 만료된 상태에서 같은 요청을 보내면 약 35초입니다. (출처: claudecodecamp.com 레이턴시 실험, 2026.03) 1M 컨텍스트를 풀로 쓸 경우 콜드 시작 레이턴시는 60~90초로 추정됩니다. 자리를 비우는 사이 캐시가 만료되면 다음 메시지가 올 때 거의 1분 넘게 기다려야 합니다.

Claude Code 공식 문서에서 제시한 평균 일일 비용은 개발자 1인당 $6이고, 90%는 $12 이하입니다. (출처: code.claude.com/docs/en/costs) 이 수치는 Sonnet 4.6 기준이며 세션을 적절히 관리한 경우입니다. 반면 realcoding.blog에서는 1M 컨텍스트를 큰 코드베이스에 그대로 적용했을 때 $50 크레딧이 3시간 만에 소진됐다고 적었습니다. 차이가 나는 이유는 명확합니다. 큰 컨텍스트를 여러 턴에 걸쳐 계속 유지하면 매 턴마다 그 전체 토큰을 다시 보내기 때문입니다.

비용이 낮은 세션 vs 높은 세션 — 차이를 만드는 습관

✅ 작업 전환 시 /clear 실행 → 컨텍스트 작게 유지
✅ 로그·문서 처리는 서브에이전트에 위임 → 메인 대화에 결과만 반환
✅ 단일 대형 파일 분석은 1M 최적 사용처 — 한 번 읽고 끝
❌ 80턴 넘은 세션에서 1M 유지 → 초반 내용이 오히려 노이즈
❌ 5분 이상 자리 비움 후 고컨텍스트 재시작 → 긴 대기 + 같은 비용
❌ Sonnet 4.6으로 400K 이상 코드 분석 → 정확도 불확실, 비용만 발생

compaction이 발동했을 때 내는 비용($0.21 수준)은 고컨텍스트 세션의 매 턴 비용보다 쌉니다. “/clear + 재시작”이 비용 측면에서 1M 유지보다 나은 경우가 있습니다. 상황에 따라 다르지만, 긴 멀티턴 세션을 1M으로 무한정 이어가는 것이 항상 이득은 아닙니다.

▲ 목차로 돌아가기

경쟁 모델과 실제로 다른 점

1M 컨텍스트는 이제 주요 모델이 모두 지원합니다. 차이는 지원 여부가 아니라 가격 구조와 정확도입니다.

모델	1M 컨텍스트	가격 구조	장거리 프리미엄
Claude Opus/Sonnet 4.6	✅	균일 단가	없음
GPT-5.4	✅	구간 요금	272K 초과 2배
GPT-4.1	✅	균일 단가	없음
Gemini 2.5 Pro	✅	구간 요금	200K 초과 2배

(출처: paddo.dev 경쟁 비교 분석, 2026.03 / 각 모델 공식 가격 페이지)

GPT-4.1도 균일 단가입니다. 그런데 코딩 용도로 장거리 컨텍스트를 쓸 때 정확도 측면에서 Opus 4.6과 비교할 수 있는 공개 벤치마크는 MRCR v2가 유일합니다. Opus 4.6이 78.3%이고, paddo.dev에서 측정한 Gemini 3 Pro는 26.3%였습니다. 단, Gemini 3 Pro는 1M을 처음부터 염두에 두고 훈련된 Gemini 1.5 Pro와 세대가 다르고, 이 수치는 Anthropic이 자체 벤치마크로 측정한 값입니다. (출처: paddo.dev, 2026.03)

균일 단가 자체는 Claude와 GPT-4.1이 같습니다. 하지만 현재 1M짜리 멀티턴 코딩 세션에서 공개된 정확도 수치가 가장 높은 모델은 Opus 4.6입니다. 가격이 비싼 이유가 있습니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. Max 플랜 쓰면 1M이 무조건 포함돼서 추가 요금 없는 거 아닌가요?

Max 플랜의 정액 요금 안에서 1M 컨텍스트를 쓸 수 있는 건 맞습니다. 단, fast mode(빠른 응답 모드)는 Max 플랜 안에서도 추가 사용량으로 청구됩니다. fast mode는 Opus 기준 입출력 $30/$150/MTok으로, 장거리 프리미엄 대신 6배 단가가 붙는 구조입니다. 공식 문서에서 “fast mode is always billed as extra usage, even on Max subscriptions”라고 직접 밝히고 있습니다. (출처: claudecodecamp.com, 2026.03.13)

Q2. Claude Code에서 1M 모드를 활성화하는 방법이 따로 있나요?

세션 안에서 /model opus[1m] 또는 /model sonnet[1m]으로 전환할 수 있습니다. Max·Team·Enterprise 플랜의 Opus 4.6은 기본값이 이미 1M입니다. API 호출 시 기존에 `anthropic-beta: long-context-2025-01-01` 헤더를 쓰고 있었다면 자동으로 무시됩니다. 코드 변경 없이 GA의 혜택을 받을 수 있습니다. (출처: Anthropic 공식 블로그 claude.com/blog/1m-context-ga)

Q3. 대형 코드베이스를 한 번에 넣으면 비용이 얼마나 드나요?

1M 토큰짜리 단일 Opus 요청의 입력 비용은 $5입니다. 대형 코드베이스를 한 번 분석하는 단발성 요청은 이 수준입니다. 문제는 같은 코드베이스를 여러 턴에 걸쳐 계속 참조하면, 매 턴마다 컨텍스트 전체가 재전송되는 구조 때문에 비용이 쌓입니다. 실사용 후기에서 $50 크레딧이 3시간 만에 소진된 사례는 이 방식으로 쓴 경우입니다. (출처: realcoding.blog, 2026.02.20) 단발 분석 후 결과만 정리해서 다음 세션으로 넘기는 방식이 비용 효율적입니다.

Q4. compaction이 완전히 사라진 건가요?

아닙니다. compaction은 여전히 작동합니다. 1M 세션에서 약 802K까지 쓰면 첫 번째 compaction이 발동합니다. 200K 세션에서 134K 사용 후 발동하던 것에 비해 훨씬 늦게 일어나는 것이고, GA 발표 후 compaction 이벤트가 15% 줄었다는 수치도 “사라진 것”이 아니라 “늦춰진 것”입니다. (출처: Anthropic CPO Jon Bell 발언, claude.com/blog/1m-context-ga, 2026.03.13) compaction 지점을 사용자가 직접 지정하고 싶다면 /compact Focus on code samples처럼 보존 대상을 지정할 수 있습니다.

Q5. Amazon Bedrock이나 Google Vertex AI에서도 같은 조건인가요?

1M 컨텍스트 자체는 Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서도 당일 제공됩니다. 단, 각 플랫폼의 가격 정책은 Anthropic 직접 API와 다를 수 있습니다. 특히 Bedrock과 Vertex는 자체 요금 체계를 적용하며, Claude Code가 이 경로로 연결됐을 때는 Anthropic 콘솔이 아닌 각 클라우드 콘솔에서 비용을 추적해야 합니다. (출처: Anthropic 공식 블로그 claude.com/blog/1m-context-ga)

▲ 목차로 돌아가기

마치며 — 써봐야 알게 되는 것들

3월 13일 변화의 핵심은 “장거리 요금제를 없앴다”입니다. 솔직히 말하면, 이것만으로도 API를 직접 쓰는 개발자한테는 꽤 의미 있는 변화입니다. 긴 컨텍스트 작업을 200K 경계 눈치 보며 잘라가던 불편함이 없어졌습니다.

그런데 “무료가 됐다”는 표현은 맞지 않습니다. 토큰은 여전히 쓰는 만큼 내야 하고, 긴 세션을 유지하면 그 비용이 빠르게 쌓입니다. Sonnet으로 1M을 써서 정확도가 떨어지면, 싸게 쓰려다 오히려 더 많은 수정 요청을 보내게 됩니다.

가장 이득을 보는 사용처는 명확합니다. 대형 코드베이스나 긴 문서를 한 번에 넣고 분석하는 단발성 작업입니다. 멀티턴 대화를 오래 이어가는 용도에서는 1M이 있더라도 세션 관리를 잘 해야 비용이 예상 안에 들어옵니다.

기능의 한계도 Anthropic이 직접 수치로 공개했습니다. 4개 중 1개는 1M에서 빠집니다(MRCR 78.3%). 도구가 할 수 없는 것을 알고 쓰는 것이, 새 기능을 가장 잘 쓰는 방법입니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

본 포스팅은 2026년 3월 22일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 인용된 가격·수치는 각 공식 출처 기준이며, Anthropic 및 각 클라우드 플랫폼의 정책 변경에 따라 달라질 수 있습니다. 최신 정보는 공식 문서에서 직접 확인하세요.

Claude Code 1M 컨텍스트,
무료라는 말이 절반만 맞습니다

GA로 뭐가 바뀌었나 — 핵심 3가지

200K 경계가 여전히 존재하는 이유

Sonnet으로 1M 쓰면 생기는 문제

컨텍스트를 채울수록 집중도가 떨어집니다

세션 운영 방식이 비용을 결정합니다

경쟁 모델과 실제로 다른 점

자주 나오는 질문 5가지

마치며 — 써봐야 알게 되는 것들

📎 본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Claude Code 1M 컨텍스트, 무료라는 말이 절반만 맞습니다

Claude Code 1M 컨텍스트,무료라는 말이 절반만 맞습니다

GA로 뭐가 바뀌었나 — 핵심 3가지

200K 경계가 여전히 존재하는 이유

Sonnet으로 1M 쓰면 생기는 문제

컨텍스트를 채울수록 집중도가 떨어집니다

세션 운영 방식이 비용을 결정합니다

경쟁 모델과 실제로 다른 점

자주 나오는 질문 5가지

마치며 — 써봐야 알게 되는 것들

📎 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기

Claude Code 1M 컨텍스트,
무료라는 말이 절반만 맞습니다