Claude Opus 4.6 / Sonnet 4.6
Claude Code 1M 창, 클수록 좋을까요?
2026년 3월 13일, Anthropic이 Claude Code에 100만 토큰 컨텍스트 창을 정식으로 열었습니다. 발표 직후 Hacker News 1위(1,100 포인트, 485개 댓글)를 기록할 만큼 화제였습니다. 그런데 막상 커뮤니티 반응을 들여다보면, 환호와 우려가 동시에 터져 나옵니다. 무조건 크게 쓰면 좋은 게 아니라는 겁니다.
(1M 토큰 기준)
감소율
200K 초과 시 할증 폐지
(기존 100장→6배↑)
정식 출시 이후 바뀐 것, 3가지
결론부터 말씀드리면, 이번 업데이트는 단순히 창 크기를 늘린 게 아닙니다. 가격 구조, 한도, 미디어 허용량 세 가지가 동시에 바뀌었습니다.
① 200K 초과 할증 요금이 완전히 사라졌습니다
기존에는 Opus 4.6로 200K 토큰을 넘기는 순간 입력 단가가 백만 토큰당 $5 → $10으로 두 배 뛰었습니다. Sonnet 4.6도 $3 → $6으로 할증됐습니다. 이제 900K 토큰 요청과 9K 토큰 요청의 단가가 동일합니다. (출처: Anthropic 공식 블로그, 2026.03.13, claude.com/blog/1m-context-ga)
② 미디어 허용량이 6배 늘었습니다
세션당 이미지·PDF 첨부 한도가 100장에서 600장으로 확대됐습니다. 대형 계약서 묶음, 수백 장의 연구 논문, 혹은 코드베이스 스크린샷을 통째로 올리는 작업이 현실적으로 가능해진 겁니다.
③ Beta 헤더 없이도 200K 이상 요청이 자동 처리됩니다
이전에 200K 이상 요청을 보내려면 API 호출 시 별도의 베타 헤더를 붙여야 했습니다. 이제 그냥 보내면 됩니다. 기존에 헤더를 쓰던 코드도 그대로 두면 되고, 별도 수정이 필요 없습니다.
비용이 반으로 줄었다는 말, 정확히 어디서 맞나요
할증 구간이 폐지됐으니 “비용이 절반”이라고 표현하는 글이 많습니다. 맞는 말이긴 한데, 조건이 있습니다. 200K 토큰을 넘기는 작업을 할 때만 해당합니다.
💡 공식 발표 수치와 실제 청구 흐름을 같이 놓고 보니 이런 차이가 보였습니다
기존 구조에서 300K 토큰짜리 작업을 Opus 4.6로 처리하면, 처음 200K는 $5/MTok, 나머지 100K는 할증 적용돼 $10/MTok이 붙었습니다. 합산하면 입력 비용 약 $2.00입니다.
이제 같은 300K 요청은 전 구간 $5/MTok 적용. 입력 비용 $1.50. 300K 단일 요청 기준으로 25% 절감입니다. 세션이 길어져 500K, 900K까지 올라갈수록 절감 폭은 커집니다.
반면 GPT-5.4 API는 지금도 272K 토큰을 넘는 순간 입력 단가가 2배로 올라가고, 출력 단가는 1.5배가 됩니다. 그것도 초과분만이 아니라 해당 세션 전체에 소급 적용됩니다. (출처: Substack “Claude 1M Context Window Guide 2026”, 2026.03.16, karozieminski.substack.com) 예산 계획 없이 긴 세션을 돌리다 월말에 청구서 충격을 받는 패턴이 여기서 나옵니다.
| 모델 | 기준 단가(입력) | 장문 할증 | 최대 창 |
|---|---|---|---|
| Claude Opus 4.6 | $5/MTok | 없음 | 1M |
| Claude Sonnet 4.6 | $3/MTok | 없음 | 1M |
| GPT-5.4 (API) | $2.50/MTok | 272K↑ 시 2배 | 1.05M |
| GPT-4.1 (API) | $2/MTok | 없음 | 1M |
(출처: Anthropic 공식 블로그 2026.03.13, The New Stack 2026.03.16, Substack Karo Zieminski 2026.03.16)
78.3%가 의미하는 것, 그리고 나머지 21.7%
Anthropic이 내세운 핵심 수치는 MRCR v2 벤치마크 78.3%입니다. 이 테스트는 100만 토큰 분량의 문서 — 두꺼운 소설 10권 분량 — 안에 여러 개의 특정 사실을 숨기고, 모델이 전부 정확하게 찾아내는 비율을 측정합니다. 하나라도 틀리면 0점입니다. (출처: Anthropic 공식 블로그, 2026.03.13)
같은 창 길이에서 Gemini 계열이 26.3%, 이전 최고 성능 Claude 모델이 18.5%를 기록했다는 점과 비교하면 78.3%는 의미 있는 수치입니다. 프런티어 모델 중 가장 높습니다.
💡 수치를 256K 구간과 나란히 놓아 보면 이게 보입니다
Opus 4.6는 256K 토큰 구간에서 91.9%를 기록합니다. 1M으로 늘어나면 78.3%로 내려갑니다. 약 15%p 하락입니다. 반면 GPT-5.4는 같은 구간에서 79.3%에서 36.6%로 절반 넘게 급락합니다. (출처: LinkedIn 엔지니어 분석, 2026.03.13, linkedin.com)
GPT-5.4 대비 정확도 하락폭이 3배 이상 작습니다. 경쟁 우위가 나오는 지점입니다.
단, 솔직히 짚어야 할 부분이 있습니다. 78.3%라는 수치는 Anthropic이 직접 발표한 자료이고, 독립 기관의 재현 검증은 이 글 작성 시점(2026.03.24) 기준으로 공개된 것이 없습니다. 벤치마크 점수와 실제 코딩 세션에서의 품질은 다를 수 있습니다. 실제 Reddit 커뮤니티에서는 “150K를 넘어가면 체감 품질이 떨어진다”는 사용자 경험이 다수 보고됩니다. 벤치마크와 실사용 사이의 간격입니다.
크게 쓸수록 오히려 돈이 더 나가는 구조
이 부분이 가장 놓치기 쉬운 함정입니다. 1M 창이 생겼으니 크게 쓸수록 유리할 것 같지만, LLM은 매 요청마다 전체 컨텍스트를 다시 처리합니다. 세션이 500K 토큰에 달한 상태에서 짧은 명령 한 줄을 보내도, 내부적으로는 500K 토큰 전체가 재전송됩니다.
⚠️ 실측 사례 — 토큰 폭탄
한 개발자가 Cursor에서 Claude를 사용하다 AI 툴 호출 한 번에 800K 토큰이 소모되는 상황을 경험했습니다. 데이터베이스 전체를 컨텍스트로 끌어온 것이 원인이었습니다. 창이 커지면 실수로 투입하는 데이터의 규모도 그에 비례해 커질 수 있습니다. (출처: Substack Karo Zieminski, 2026.03.16)
Prompt Caching이 일부 완충 역할을 하긴 합니다. 이전 컨텍스트가 캐시에 남아 있으면 재처리 비용이 줄어듭니다. 하지만 캐시 유효 시간이 짧아서 작업 간 간격이 길어지거나 모델이 바뀌면 캐시가 무효화됩니다. (Anthropic이 별도 이유를 밝히지 않은 부분입니다.)
그래서 커뮤니티에서 수렴한 실용 원칙이 있습니다. 1M 창을 목표가 아닌 안전망으로 쓰는 것입니다. 300K~400K 선에서 수동으로 `/compact`를 실행해 새 세션으로 넘어가는 패턴이 가장 많이 공유됩니다. 환경 변수 `CLAUDE_CODE_AUTO_COMPACT_WINDOW`를 설정하면 자동으로 이 임계치를 지정할 수 있습니다.
Pro 플랜이라면 이것부터 확인하세요
발표 문구가 “모두에게 GA”였지만, 실제로는 플랜마다 경험이 다릅니다. 이 부분이 기존 블로그 글들에서 잘 다뤄지지 않았습니다.
💡 플랜별 1M 창 활성화 방식, 발표 원문과 실사용 보고를 같이 보니 이 차이가 나왔습니다
| 플랜 | 자동 적용 | 별도 조치 |
|---|---|---|
| Max / Team / Enterprise | ✅ 자동 | 없음 |
| Pro | ❌ 비자동 | /extra-usage 입력 |
| Free | ❌ | 2026년 3월 프로모션 기간 중 일부 체험 가능 (별도 확인 필요) |
Pro 플랜에서 1M 창이 기본값이 아닌 이유를 Anthropic이 공식 답변을 내놓지 않은 상황입니다. 다만 구조적으로 보면, Max/Team 업그레이드를 유도하는 동시에 Pro 플랜의 마진을 지키는 방식입니다. 컨텍스트가 크면 당연히 토큰 소모량이 늘어나고, 월정액 안에서 더 많은 비용을 부담해야 하기 때문입니다.
Max, Team, Enterprise 사용자라면 터미널에서 `claude –version`으로 업데이트 여부를 확인하고 Claude Code를 재시작하면 모델 선택 화면에 “Opus 4.6 (1M context) [NEW]”가 표시됩니다.
실사용자들이 수렴한 운용 전략
Reddit r/ClaudeAI에서 176개 댓글을 살펴본 결과, 커뮤니티가 모더레이터 봇 형태로 아래 세 가지 원칙으로 정리했습니다. (출처: Reddit r/ClaudeAI, 2026.03.13)
💡 발표 당일 커뮤니티 186개 반응을 분석하니 공통된 운용 패턴이 세 가지로 압축됐습니다
① 한도 상한이 아니라 여유 공간으로 쓸 것. 300K~400K 선에서 수동 압축하거나 새 세션을 시작하는 게 여전히 유리합니다. 복잡한 추론 작업은 250K를 넘기면 품질이 눈에 띄게 떨어집니다.
② 자율 에이전트 실행 중에는 특히 주의할 것. 서브에이전트가 병렬로 돌면서 각자 1M 창을 가질 수 있고, 이게 토큰 소모량을 급격히 키울 수 있습니다.
③ 자동 압축 임계치를 직접 조정할 것. CLAUDE_AUTOCOMPACT_PCT_OVERRIDE 환경변수로 전체 창의 몇 %에서 자동 압축을 트리거할지 설정할 수 있습니다. 예를 들어 값을 “30”으로 설정하면 300K 시점에 자동 압축이 시작됩니다.
한 가지 흥미로운 실측 보고도 있었습니다. 500K에서 1M 창으로 올린 에이전트가 토큰을 더 적게 사용했다는 사례입니다. 창이 넓어지면서 불필요한 반복 탐색이 줄어든 결과입니다. (출처: Anthropic 공식 블로그, 사용자 인용, 2026.03.13) 모든 상황에 적용되는 건 아니지만, 긴 탐색 작업에서는 큰 창이 오히려 효율적일 수 있다는 점은 기억해 둘 만합니다.
또한 2026년 3월부터 새로 추가된 `/loop`, `/remote-control`, `/voice` 명령과 1M 창이 조합되면 컨텍스트 소모가 예상보다 훨씬 빠를 수 있습니다. 긴 루프 작업을 돌릴 때는 `/cost`로 주기적으로 소모량을 확인하는 습관이 필요합니다.
Q&A 5가지
마치며
Claude Code 1M Context GA를 한 줄로 요약하면 이렇습니다. “더 크게 쓰라는 게 아니라, 덜 자주 끊기라는 업데이트입니다.”
200K 할증 폐지는 API 빌드를 고려하는 팀에게 실질적인 비용 절감입니다. 반면 Claude Code를 구독으로 쓰는 개발자에게 1M 창의 핵심 가치는 중간 압축 횟수가 줄어들면서 긴 작업을 한 세션에서 완료할 확률이 높아진다는 점입니다. 커뮤니티 분석 기준 15% 감소한 Compaction 이벤트가 그 수치입니다.
이 글에서 가장 드리고 싶었던 포인트는 두 가지입니다. 하나는 “창이 커졌으니 청구서도 커질 수 있다“는 것, 다른 하나는 “Pro 플랜은 자동이 아니다“는 겁니다. 이 두 가지를 모르고 쓰면 예상치 못한 비용이나 “왜 내 화면엔 안 나오지” 같은 혼란이 생깁니다.
솔직히 말하면, 1M 창을 꽉 채워서 쓰는 게 맞는 시나리오는 아직 많지 않습니다. 대용량 법률 문서 검토, 수백 페이지짜리 코드베이스 리뷰, 연구 논문 수십 편 동시 분석 같은 작업에서는 확실히 게임 체인저입니다. 그 외의 일반 코딩 세션에서는 300K~400K에서 압축하는 기존 패턴이 여전히 유효합니다.
📚 본 포스팅 참고 자료
본 포스팅은 2026년 3월 24일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 수치 및 기능 내용은 반드시 Anthropic 공식 문서(claude.com, docs.anthropic.com)에서 최신 버전을 직접 확인하시기 바랍니다.


댓글 남기기