Claude Code · Opus 4.6 / Sonnet 4.6
클로드 코드 100만 토큰: Pro도 된다 믿으면 막히는 이유
2026년 3월 13일, Anthropic이 Claude Opus 4.6·Sonnet 4.6의 100만 토큰 컨텍스트 창을 정식 출시했습니다. 추가 요금도 없고, 코드 전체를 한 번에 올릴 수 있다는 소식이 퍼졌지만 — 가장 많이 쓰는 Pro 플랜은 자동 활성화가 안 됩니다. 그리고 쓸수록 비용이 쌓이는 구조도 그대로입니다. 무엇이 정말 바뀌었고, 무엇이 그대로인지를 공식 수치로 정리했습니다.
(Opus 4.6, 1M 토큰)
(2M 창에도 불구하고)
발생 감소율
입력 비용 (Opus 4.6)
100만 토큰이 실제로 얼마나 큰 공간인가
클로드 코드 100만 토큰이라는 숫자가 뉴스 헤드라인을 장식했지만, 숫자 자체가 와닿지 않는 분이 많습니다. 1M 토큰은 영어 기준 약 75만 단어 분량으로, 해리포터 전 7권과 전쟁과 평화를 합친 것과 맞먹는 공간입니다. 코드로 환산하면 약 11만 줄, PDF 또는 이미지로는 최대 600장을 한 세션에 올릴 수 있습니다. (출처: Anthropic 공식 블로그, 2026.03.13)
이전까지 Claude Code는 최대 20만 토큰 기본 창을 유지했고, 그 이상을 올리면 자동 압축(compaction)이 시작되어 대화 초반의 맥락이 지워졌습니다. 대규모 코드베이스를 분석하거나 긴 에이전트 세션을 유지해야 할 때 개발자들이 가장 많이 겪은 불편이 바로 이 ‘강제 망각’입니다. 1M 창이 열리면서 이 압축 이벤트가 15% 감소했다고 Anthropic은 밝혔습니다. 즉, 3~4시간짜리 긴 코딩 세션에서 이전 결정이 지워지는 빈도가 줄어든 셈입니다.
💡 이 수치가 의미하는 것: 압축 이벤트 15% 감소는 단순 통계가 아닙니다. 대규모 리팩터링처럼 수십 개 파일이 맞물리는 작업에서 “처음에 결정한 설계 원칙”이 세션 말미까지 살아있을 가능성이 높아졌다는 뜻입니다. (출처: Anthropic 1M Context GA 블로그, 2026.03.13)
다만, 공간이 늘어났다는 것이 곧 정확도가 유지된다는 뜻은 아닙니다. 이 점이 이번 업데이트에서 가장 중요한 논쟁 지점이며, 다음 섹션들에서 수치로 직접 확인합니다.
Pro 플랜은 왜 자동으로 안 켜지나
뉴스 제목만 읽으면 “Pro 플랜이라면 당연히 1M 토큰을 바로 쓸 수 있다”고 생각하기 쉽습니다. 하지만 Anthropic의 공식 GA 발표를 그대로 읽으면 다릅니다. Max, Team, Enterprise 플랜 사용자는 Opus 4.6에서 1M 컨텍스트가 자동으로 기본값이 되었지만, Pro 플랜은 Claude Code 내에서 /extra-usage 명령어를 직접 입력해야만 활성화됩니다. (출처: Anthropic 1M Context GA 블로그, 2026.03.13)
이 차이가 만들어지는 이유는 비즈니스 전략에 있습니다. Pro 플랜 요금은 월 $20 수준이고 Max 플랜은 월 $100입니다. 긴 컨텍스트 세션은 입력 토큰 비용이 크게 올라가기 때문에, Anthropic 입장에서는 대용량 사용을 상위 플랜의 명확한 가치로 남기면서도 Pro 사용자에게는 선택지를 열어두는 구조를 선택한 것입니다.
⚠️ 실제로 확인해야 할 것: Pro 플랜으로 Claude Code를 쓰고 있다면, 아무리 긴 문서를 붙여 넣어도 압축이 일어납니다. 1M을 쓰고 싶다면 세션 안에서 /extra-usage를 먼저 입력해야 합니다. 그리고 이 명령어를 쓰면 추가 토큰 사용료가 발생할 수 있으므로 비용 모니터링을 함께 켜두는 것이 권장됩니다.
정리하면, Pro 플랜에서 “100만 토큰은 된다”는 것은 사실이지만 “자동으로 된다”는 것은 사실이 아닙니다. 이 미묘한 차이를 모른 채 대규모 작업을 시작했다가 중간에 압축이 발생해 맥락이 날아가는 경우가 실제로 보고되고 있습니다.
Gemini는 2M인데 Claude가 낫다고? 수치로 보는 진실
💡 이 섹션의 분석은 Anthropic 공식 GA 발표 수치와 Google 자체 모델 평가 카드 수치를 교차 비교한 결과입니다.
Gemini 3.1 Pro는 이미 200만 토큰 컨텍스트 창을 제공합니다. Claude의 두 배입니다. 그런데 실제 성능 테스트에서 결과가 역전됩니다. 핵심은 컨텍스트 창의 ‘크기’가 아니라 그 안에서 얼마나 정확하게 내용을 ‘찾아내는가’입니다.
MRCR v2(Multi-Round Coreference Resolution)는 수백만 자에 달하는 문서 안에 숨겨진 정보를 AI가 얼마나 정확하게 찾아내는지를 측정하는 벤치마크입니다. 8개의 단서를 모두 찾아야 점수로 인정되는 까다로운 기준입니다. 1M 토큰 기준으로 비교하면 다음과 같습니다.
| 모델 | 컨텍스트 창 | MRCR v2 (1M 토큰) | 비고 |
|---|---|---|---|
| Claude Opus 4.6 | 1M | 78.3% | 프론티어 모델 최고 |
| Gemini 3.1 Pro | 2M | 26.3% | 창은 2배지만 정확도는 ⅓ |
| Claude Sonnet 4.6 | 1M | 유사 수준 | Opus보다 소폭 낮음 |
| 이전 최고 Claude | – | 18.5% | Opus 4.6 대비 4.2배 향상 |
이 수치가 의미하는 바는 명확합니다. Gemini가 2M 토큰 창을 가지고 있어도, 1M 토큰 분량의 문서에서 핵심 정보를 찾아내는 능력은 Claude Opus 4.6의 3분의 1 수준에 불과합니다. 빈 창고가 아무리 커도 물건을 제자리에 두지 못하면 쓸모가 없는 것처럼, 컨텍스트 창이 넓다는 것이 곧 “잘 기억한다”는 뜻이 아닙니다.
한 가지 유의해야 할 점은, 78.3%라는 수치가 Anthropic 자체 발표에서 나온 것으로 독립적인 3자 검증은 아직 진행 중입니다. 그러나 Google의 자체 모델 평가 카드에서도 Gemini의 1M 토큰 구간 점수가 26.3%임이 확인되므로, 이 격차 자체는 한쪽의 주장이 아닌 양측 공식 자료에 기반한 교차 검증된 수치입니다. (출처: rdworldonline.com 보도, 2026.02.05)
GPT-5.4도 1M인데 가격 함정이 있다
💡 이 비교는 OpenAI Help Center 공식 요금 안내와 Claude 공식 가격 페이지를 교차한 결과입니다.
OpenAI GPT-5.4도 API에서 최대 100만 토큰을 지원합니다. 그러나 가격 구조가 다릅니다. GPT-5.4는 272,000 토큰을 초과하는 순간 해당 세션 전체에 대해 입력 2배, 출력 1.5배 요금이 적용됩니다. 초과분만 아니라 전체 세션에 소급 적용된다는 점이 핵심입니다. 즉, 271K 토큰짜리 요청과 300K 토큰짜리 요청의 비용이 거의 2배 차이가 나는 ‘절벽’ 구조입니다.
반면 Claude는 이번 GA 업데이트로 9K 토큰 요청과 900K 토큰 요청의 토큰당 단가를 동일하게 설정했습니다. Sonnet 4.6 기준 입력 $3/백만 토큰, Opus 4.6 기준 입력 $5/백만 토큰이 전 구간 동일하게 적용됩니다. (출처: Anthropic 1M Context GA 블로그, 2026.03.13)
| 모델 | 기본 단가 (입력) | 300K 토큰 요청 | 비고 |
|---|---|---|---|
| Claude Sonnet 4.6 | $3 / 1M | $0.90 | 단가 변동 없음 |
| Claude Opus 4.6 | $5 / 1M | $1.50 | 단가 변동 없음 |
| GPT-5.4 (API) | $2.50 / 1M → 272K 초과 시 $5 |
약 $1.50 (2배 단가 적용) |
세션 전체 소급 |
| GPT-4.1 (API) | $2 / 1M | $0.60 | 단가 변동 없음 |
GPT-5.4 API가 얼핏 더 저렴해 보이지만 긴 세션에서는 청구서가 예측 불가능해집니다. 특히 에이전트 워크플로우처럼 토큰 사용이 세션 중에 급격히 늘어나는 시나리오에서는 달의 마지막 날에야 비용 폭탄을 확인하게 됩니다. Claude의 단일 단가는 이 불확실성을 제거합니다.
컨텍스트가 커질수록 비용이 폭증하는 구조
단가가 동일해도 세션이 길어질수록 총비용이 선형으로 증가하는 것은 막을 수 없습니다. Opus 4.6 기준 900,000 토큰 입력에 드는 비용만 계산해 보면 다음과 같습니다.
출력 토큰 가정 (평균 10만 토큰) × $25 / 1,000,000 = $2.50 (출력)
세션 합계 ≈ $7.00 / 1회
일회성 리서치나 대형 문서 분석이라면 이 정도 비용은 충분히 가치 있습니다. 하지만 이 세션을 하루에 10회 반복하는 에이전트 시스템이라면 월 비용은 약 $2,100(약 300만 원)에 달합니다. 개발자 커뮤니티에서 실제로 보고된 사례 중에는 Claude Code 내 AI 도구 호출 하나가 데이터베이스 전체를 끌어당겨 단일 세션에서 80만 토큰을 소비한 경우도 있습니다. (출처: Hacker News 커뮤니티 스레드, 2026.03.14)
Anthropic도 이 점을 인식하고 있습니다. Claude Code 공식 비용 관리 문서는 MCP 서버 사용 시 컨텍스트의 10%를 넘기지 않도록 tool search를 활용할 것을 권장하며, CLAUDE.md 파일 크기를 500토큰 이하로 유지하는 것이 비용 최적화에 유효하다고 명시하고 있습니다. (출처: code.claude.com/docs/ko/costs)
🔢 직접 계산해 보는 방법: Claude Code 세션 중 /cost 명령어를 입력하면 현재까지의 누적 비용과 API 호출 시간이 즉시 표시됩니다. 긴 세션 전에 한 번씩 확인하는 습관이 예상치 못한 청구를 막아줍니다.
결론적으로, 클로드 코드 100만 토큰은 “무조건 비싸진다”는 뜻도 아니고 “무조건 싸다”는 뜻도 아닙니다. 단가가 같아졌을 뿐, 더 많이 쓰면 더 많이 냅니다. 가장 달라진 점은 긴 세션에 ‘추가 페널티’가 없어졌다는 것, 그리고 그 덕분에 비용 예측이 가능해졌다는 것입니다.
실제로 이걸 어디에 써야 이득인가
Anthropic이 GA 발표에서 직접 인용한 실사용자 사례들을 분석하면 ‘1M 컨텍스트가 실제로 빛나는 시나리오’가 세 가지로 좁혀집니다.
① 대형 코드베이스 리뷰: 여러 파일에 걸친 대규모 diff를 한 세션에 넣어 교차 파일 종속성을 분석할 때입니다. 기존에는 200K 창에 맞추기 위해 파일을 잘라 넣어야 했고, 이 과정에서 파일 간 연결 고리가 끊어지는 경우가 많았습니다. Sekhsaria(Cognition AI)는 “전체 diff를 한 번에 넣자 더 간단하고 토큰 효율적인 하네스로 고품질 리뷰가 가능해졌다”고 밝혔습니다. (출처: Anthropic 1M Context GA 블로그, 2026.03.13)
② 장기 에이전트 세션: Datadog, Braintrust, 데이터베이스, 소스 코드를 반복 검색하면서 버그를 추적하는 작업입니다. 이전에는 100K 토큰을 넘기면 압축이 시작돼 초반에 확인한 로그 내용이 사라졌습니다. Anton Biryukov(소프트웨어 엔지니어)는 “1M 창으로 검색, 재검색, 엣지 케이스 수집, 수정 제안을 단 하나의 윈도우에서 처리할 수 있게 됐다”고 했습니다.
③ 대용량 문서 분석: 100쪽짜리 계약서 5개를 한 번에 올려 여러 버전에 걸친 협상 흐름을 파악하거나, 수백 편의 논문을 단일 패스로 종합해 가설을 검증하는 연구 워크플로우입니다. 물리학 연구 기업 공동창업자 Dr. Alex Wissner-Gross는 “수백 편의 논문, 증명, 코드베이스를 단일 패스로 종합해 기초 연구를 획기적으로 가속화했다”고 밝혔습니다.
반면 단순 Q&A, 짧은 코드 스니펫 작성, 간단한 번역처럼 수만 토큰 이내에서 해결되는 작업에는 1M 컨텍스트가 오히려 과잉입니다. 컨텍스트 창 크기와 세션 비용은 비례하기 때문에, 짧은 작업에는 기본 20만 토큰 모드나 Haiku 같은 경량 모델을 사용하는 것이 비용 효율적입니다.
📌 한 줄 판단 기준: “내 작업이 하나의 파일이나 대화만으로 끝나는가?” — 그렇다면 기본 모드로 충분합니다. “여러 문서·파일·로그 사이를 오가며 맥락을 유지해야 하는가?” — 그때 1M 컨텍스트가 의미 있어집니다.
자주 묻는 5가지
마치며
클로드 코드 100만 토큰 정식 출시는 분명히 의미 있는 변화입니다. 추가 요금 없이 긴 세션을 유지할 수 있게 됐고, 1M 토큰 구간에서의 정확도 역시 경쟁 모델 대비 명확한 우위가 수치로 확인됩니다. 그러나 이 변화가 “모든 플랜에서 자동으로 무조건 좋아졌다”는 의미는 아닙니다.
Pro 플랜은 여전히 수동 활성화가 필요하고, 대형 세션은 여전히 상당한 비용이 발생합니다. 컨텍스트 창이 넓어졌다고 해서 긴 세션 설계의 필요성이 사라지는 것도 아닙니다. 오히려 더 큰 창이 열릴수록, 얼마나 정제된 입력을 넣느냐가 결과의 품질과 비용을 동시에 좌우하게 됩니다.
개인적인 관점을 더하자면, 이번 GA 발표에서 가장 주목할 대목은 1M이라는 숫자보다 MRCR v2에서의 78.3% 대 경쟁사 26.3%라는 격차입니다. 이것은 단순히 Anthropic이 벤치마크를 잘 잡은 것이 아니라, 긴 문서를 다루는 실제 작업에서의 신뢰도 차이를 보여주는 수치입니다. 더 큰 창을 가졌어도 중요한 내용을 놓친다면, 긴 세션은 오히려 잘못된 결론을 더 확신하게 만드는 위험 요소가 될 수 있습니다.
2026년 현재 AI 모델 경쟁은 숫자 경쟁이 아닌 신뢰도 경쟁으로 이동하고 있습니다. 클로드 코드 100만 토큰은 그 흐름에서 의미 있는 한 걸음입니다. 단, 그 가치를 온전히 누리려면 어떤 플랜인지, 어떤 작업에 쓰는지를 먼저 확인해야 합니다.
본 포스팅 참고 자료
- Anthropic 공식 블로그 — 1M Context GA 발표 (2026.03.13): https://claude.com/blog/1m-context-ga
- Anthropic 공식 뉴스 — Introducing Claude Sonnet 4.6 (2026.02.17): https://www.anthropic.com/news/claude-sonnet-4-6
- Claude Code 공식 비용 관리 문서: https://code.claude.com/docs/ko/costs
- rdworldonline.com — Claude Opus 4.6 1M Context 분석 (2026.02.05): 원문 보기
- AIMultiple — Best LLMs for Extended Context Windows 2026: https://aimultiple.com/ai-context-window
- OpenAI Help Center — GPT-5.3 and GPT-5.4 in ChatGPT: 원문 보기
본 포스팅은 2026년 3월 17일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 특히 AI 서비스는 업데이트 주기가 빠르므로 최신 정보는 Anthropic 공식 웹사이트(anthropic.com)에서 확인하시기 바랍니다.


댓글 남기기