Claude 1M 컨텍스트, 전부 쓰면 오히려 손해입니다
2026년 3월 13일, Anthropic이 Claude Opus 4.6·Sonnet 4.6의 1M 토큰 컨텍스트 창을 정식 제공(GA)으로 전환했습니다. 추가 요금도 없앴습니다. 그런데 Anthropic이 직접 공개한 벤치마크 수치를 보면, “크게 쓸수록 좋다”는 직관이 완전히 틀렸다는 걸 알 수 있습니다.
(MRCR v2)
(동일 벤치마크)
(Anthropic 자체 수치)
3월 13일에 정확히 무엇이 바뀌었나
2026년 3월 13일, Anthropic은 Claude 공식 계정 X(트위터)를 통해 “1M 컨텍스트 창이 Opus 4.6과 Sonnet 4.6에 정식 제공(Generally Available)됩니다”라고 발표했습니다. (출처: @claudeai 공식 X, 2026.03.13)
핵심 변화는 두 가지입니다. 첫째, 기존에 200K 토큰 초과 시 부과되던 추가 요금(2배 입력 토큰 요금)이 완전히 사라졌습니다. 3월 13일 이전까지 Opus 4.6은 200K 초과 구간에서 입력 토큰 $5/M이 $10/M으로 2배가 되는 서지요금이 적용됐는데, 이 체계가 없어지고 전 구간 동일 단가(Sonnet 4.6 기준 $3/M 입력, $15/M 출력)가 적용됩니다. 즉 900K 토큰 요청도 9K 토큰 요청과 동일한 단가로 청구됩니다.
둘째, 베타 딱지를 떼고 공식 출시로 전환됐습니다. Claude Code Max·Team·Enterprise 플랜은 별도 설정 없이 자동 적용됩니다. 단, Pro 플랜은 자동이 아닙니다 — 이 부분은 섹션 5에서 따로 다룹니다.
1M 토큰 = 75만 단어, 실제로 얼마나 큰 규모인가
1M(100만) 토큰이라는 숫자가 얼마나 큰지 감이 잘 안 옵니다. 1토큰은 영어 기준 약 0.75단어이므로, 1M 토큰은 약 750,000단어에 해당합니다. 이를 구체적인 분량으로 환산하면 대략 3,000페이지 분량의 빽빽한 문서, 110,000줄의 코드, PDF나 이미지 600개를 한 세션에 넣을 수 있는 크기입니다. (출처: MindStudio AI 분석, 2026.03.16)
이 정도면 소규모 기업의 전체 계약서 묶음, 중형 오픈소스 프로젝트의 코드베이스 상당 부분, 수개월치 고객지원 로그를 한꺼번에 처리할 수 있습니다. 기존 200K 한도(약 15만 단어)와 비교하면 처리 가능 분량이 5배 늘었습니다.
💡 공식 발표문과 요금 체계 변화를 같이 놓고 보면 이런 차이가 보였습니다.
Anthropic이 3월 13일 이전까지 200K 초과 구간에 2배 서지요금을 부과했다는 사실은 단순한 요금 정책이 아닙니다. 이는 200K가 신뢰할 수 있는 성능 경계였음을 Anthropic 스스로 인정했던 구조입니다. 지금 그 서지요금이 사라진 것은 이 경계가 확장됐다는 신호이기도 하지만, 동시에 그 경계 너머의 구간이 과거엔 사실상 별도 상품이었음을 보여줍니다.
256K에서 93%, 1M에서 78% — 숫자가 말하는 진짜 한계
Anthropic이 직접 공개한 MRCR v2(Multi-Round Coreference Resolution) 벤치마크 수치가 핵심입니다. 이 테스트는 3,000페이지 분량 문서 안에 숨긴 정보 조각 8개를 전부 찾아야 점수가 올라가는 구조로, 단 하나라도 놓치면 점수를 주지 않는 엄격한 기준입니다.
| 모델 | 256K 정확도 | 1M 정확도 | 낙차 |
|---|---|---|---|
| Claude Opus 4.6 | 93% | 약 76~78% | ↓15~17%p |
| Gemini 3.1 Pro | — | 약 26.3% | — |
| 이전 최고 Claude | — | 약 18.5% | — |
(출처: Anthropic 공식 GA 발표문, 2026.03.13 / karozieminski.substack.com 분석)
수치를 직접 해석해보겠습니다. 256K 구간에서 93%라는 숫자는, 100번 조회할 때 93번은 정확히 맞힌다는 뜻입니다. 이 정도면 업무 자동화에 충분히 쓸 만합니다. 그런데 컨텍스트를 1M으로 꽉 채우면 78%로 떨어집니다. 4번에 1번꼴로 틀린다는 의미입니다. 1,000건 문서를 처리하면 약 220건에서 오류가 납니다. 검증 단계 없이 자동화를 돌리면 그게 그대로 산출물이 됩니다.
💡 이 벤치마크 수치는 Anthropic이 스스로 공개했다는 점이 중요합니다.
78.3%라는 수치는 Anthropic이 GA 발표문에 직접 올린 숫자입니다. 경쟁사가 폭로한 것도 아니고, 제3자 연구 기관이 독립 측정한 것도 아닙니다. 모델을 가장 잘 아는 회사가 공식 자료에 명시했다는 뜻이므로, 실제 환경에서는 이 수치보다 더 낮게 나올 수 있다는 점을 염두에 두는 게 현명합니다. 아직 독립적인 제3자 검증은 진행 중입니다.
요금 체계 변화와 GPT-5.4의 서지요금 함정
이번 GA 전환에서 가장 주목할 점은 요금 구조의 단순화입니다. 3월 13일 이전까지 Claude Opus 4.6은 200K 초과 구간에서 입력 토큰 요금이 2배($5/M → $10/M)로 뛰는 구조였습니다. 이 서지요금이 완전히 사라지고, 전 구간 Opus 4.6 기준 $15/M 입력/$75/M 출력으로 단일화됐습니다. (출처: Anthropic 공식 요금 페이지, 2026.03.13 기준)
경쟁 구도를 살펴보면, GPT-5.4는 정반대의 방향을 취하고 있습니다. GPT-5.4 API는 272K 토큰 초과 시 입력 요금이 2.5배, 출력 요금이 1.5배로 올라가는 서지 구간이 있습니다. 기술적으로는 1M 토큰 이상을 지원하지만, 260K짜리 요청 비용과 300K짜리 요청 비용 차이가 거의 2배입니다. 개발자들이 “월말 청구서 폭탄”이라고 표현하는 이유가 여기 있습니다. (출처: karozieminski.substack.com, 2026.03.16)
직접 계산 예시: Sonnet 4.6으로 900K 토큰 요청 1회 비용 = 900 × $3/M = $2.70 (입력 기준). 3월 13일 이전이라면 700K는 정상 요금($2.10), 200K 초과분 700K는 2배 요금($4.20)으로 총 $6.30이 됩니다. 같은 요청인데 요금이 2.3배 달랐습니다. 지금은 그 차이가 없어졌습니다.
Pro 플랜 사용자가 놓치는 숨겨진 조건
Max·Team·Enterprise 플랜이라면 1M 컨텍스트가 자동 적용되지만, Pro 플랜($20/월)은 다릅니다. Claude Code에서 /extra-usage 명령어를 직접 입력해야 1M 컨텍스트 창이 활성화됩니다. (출처: Anthropic GA 발표문, 2026.03.13)
이 설계는 의도적입니다. Anthropic의 수익 구조상 API 및 토큰 소비 기반 매출이 전체의 70~75%를 차지합니다. Pro 플랜에서 1M을 무제한으로 자동 허용하면 구독료($20)보다 토큰 비용이 더 들어가는 역마진 상황이 생깁니다. 사용자에게 명시적 선택을 요구하는 것은 “실제로 필요한 사람만 쓰게”하는 마진 방어 장치입니다. (출처: karozieminski.substack.com 수익 분석, 2026.03.16)
Claude Code에서 아래 명령어를 입력하면 해당 세션에서 1M 창이 열립니다.
/extra-usage
이 설정은 세션 단위이며, 새 세션을 시작하면 다시 입력해야 합니다. Max 플랜은 별도 입력 없이 기본 적용됩니다.
참고로 Anthropic은 2026년 3월 한 달 동안 Free 플랜 포함 전 플랜에 보너스 사용량 프로모션을 진행하고 있습니다. 1M 컨텍스트를 실험적으로 써보기에 지금이 가장 비용 부담이 적은 시기입니다.
컨텍스트 크게 쓸수록 좋지 않은 이유 — 공식 문서가 인정한 내용
Anthropic의 API 공식 문서 중 “컨텍스트 창 엔지니어링” 항목에는 이런 문구가 있습니다. “더 많은 컨텍스트가 자동으로 더 좋은 것은 아닙니다. 토큰 수가 늘어날수록 정확도와 리콜이 저하되는 현상이 발생하며, 이를 컨텍스트 로트(context rot)라고 합니다.” (출처: platform.claude.com/docs/en/build-with-claude/context-windows, 2026.03 기준)
컨텍스트 로트가 발생하는 이유는 트랜스포머 모델의 구조적 특성에 있습니다. 소프트맥스 어텐션은 전체 토큰 수의 합이 1이 되도록 가중치를 정규화합니다. 50K 토큰 문서에서 특정 정보를 찾을 때 모델은 49,999개 토큰과 경쟁합니다. 500K 토큰이 되면 499,999개와 경쟁합니다. 문맥이 길어질수록 중요한 정보가 주목을 받기 어려워지는 구조입니다. (출처: Softmax Attention Dilution 연구, arxiv:2501.19399, 2025)
💡 Anthropic이 컨텍스트 압축(compaction) 기능을 별도로 만든 이유가 여기 있습니다.
Claude Code에는 세션이 특정 비율에 도달하면 오래된 내용을 자동으로 요약하는 auto-compaction 기능이 있습니다. 또한 CLAUDE_AUTOCOMPACT_PCT_OVERRIDE 환경변수로 이 임계치를 조정할 수도 있습니다. 성능 저하를 막기 위한 완화 도구를 Anthropic 스스로 만들었다는 것은, 저하가 실재한다는 걸 내부적으로 인정한다는 의미입니다.
실제 개발자 커뮤니티에서는 컨텍스트가 50% 이상 찰 때부터 오류 빈도가 올라간다는 경험담이 많습니다. GitHub 이슈 #34685에는 “claude-opus-4-6[1m] 모델을 쓰는 긴 Claude Code 세션에서 컨텍스트 창의 40~48% 이하에서도 성능이 눈에 띄게 저하됐다”는 보고가 올라와 있습니다. 1M 창이 생겼어도 전략 없이 최대치까지 채우는 방식은 권장되지 않습니다.
실제로 어느 구간까지 쓰는 게 현명한가
MRCR v2 수치 기준으로는 256K(약 25% 지점)에서 93%가 나오고, 500K(50%) 구간은 아직 독립 검증 수치가 없지만 전문가들은 600K~700K 이전까지는 품질이 유지되는 편이라고 봅니다. Karozieminski의 분석에 따르면 컨텍스트 압축 이벤트가 GA 전환 이후 15% 감소했는데, 이는 더 오랜 세션을 품질 손실 없이 유지하게 됐다는 신호입니다. (출처: karozieminski.substack.com, 2026.03.16)
실용적인 가이드로 정리하면 이렇습니다. 문서 분석·계약서 검토·코드 리뷰처럼 결과 정확도가 중요한 작업이라면 한 세션에 500K 미만을 목표로 잡고, 초과할 것 같으면 compaction 기능을 쓰거나 세션을 새로 여는 것이 낫습니다. 리서치 초안 작성·아이디어 탐색처럼 완벽한 정확도보다 폭넓은 맥락 파악이 중요한 경우는 더 넓게 쓸 수 있습니다.
비용 측면도 고려해야 합니다. Sonnet 4.6으로 900K 토큰을 입력하면 입력 비용만 $2.70입니다. 에이전트 루프처럼 같은 세션이 반복 호출되는 구조라면 한 번의 대화가 수십 달러로 번질 수 있습니다. 실제로 커뮤니티에서는 DB 전체를 컨텍스트로 불러와 세션 1개에 80만 토큰이 소모됐다는 사례도 있습니다. 더 큰 창은 더 큰 청구서로 이어질 수 있습니다.
- 정확도 우선 작업(법률·금융·의료 문서): 256K~500K 이내 유지, 필요 시 세션 분할
- 코드베이스 분석: 500K~700K까지 허용, auto-compaction 임계치 50% 설정 권장
- 리서치·아이디어 탐색: 700K~900K 가능, 단 중요한 결론은 직접 검증 필수
- 에이전트 루프: 루프마다 컨텍스트 소비량 추적 필수, 비용 폭발 주의
자주 묻는 질문
Q1. 1M 컨텍스트 창을 쓰면 요금이 더 비싸지나요?
Q2. 78.3% 정확도는 어떤 벤치마크 기준인가요?
Q3. GPT-4.1 API도 1M 토큰을 지원한다고 들었는데, Claude와 어떻게 다른가요?
Q4. claude.ai 웹 사이트(앱)에서도 1M 컨텍스트가 작동하나요?
Q5. RAG(검색 증강 생성)가 이제 불필요해지나요?
마치며
솔직히 말하면, 이번 GA 발표는 좋은 소식이 맞습니다. 추가 요금 없이 1M 창을 쓸 수 있고, 경쟁 모델 대비 리콜 정확도도 높은 편입니다. 특히 Gemini 3.1 Pro의 1M 기준 26.3%와 비교하면 Claude의 78%는 실질적인 차이입니다.
다만 “1M이니까 전부 채워 넣자”는 접근은 조심해야 합니다. Anthropic 스스로 공식 문서에 컨텍스트 로트가 실재한다고 명시했고, 수치로도 256K → 1M 구간에서 15~17%p 정확도 하락이 있습니다. 큰 창이 생겼다고 전략 없이 최대치를 쓰면, 비용은 비례해서 올라가고 품질은 비례해서 올라가지 않습니다.
작업 유형에 맞는 컨텍스트 운용 전략, 플랜별 활성화 조건 확인, 그리고 중요한 결과물에 대한 검증 단계 — 이 세 가지만 갖추면 1M 컨텍스트 창은 충분히 유용한 도구가 됩니다.
본 포스팅 참고 자료
- Anthropic 공식 발표 — Introducing Claude Sonnet 4.6 (anthropic.com/news/claude-sonnet-4-6)
- MindStudio AI — Claude 1M Token Context Window 분석 (mindstudio.ai)
- Karo Zieminski — Claude 1M Context Window Guide 2026 (karozieminski.substack.com)
- Anthropic 공식 API 문서 — Context Windows (platform.claude.com/docs)
- GitHub anthropics/claude-code Issue #35296 — Context Rot 관련 실사용 보고 (2026.03.17)
- arxiv:2501.19399 — Softmax Attention Dilution 연구 (2025)
⚠️ 본 포스팅은 2026년 3월 22일 기준 정보를 바탕으로 작성됐습니다. 본 포스팅 작성 이후 Anthropic의 서비스 정책·요금·UI·기능이 변경될 수 있습니다. 벤치마크 수치는 Anthropic 공식 발표 자료를 인용한 것으로, 독립적인 제3자 검증이 완료되지 않은 내용을 포함합니다. Claude Sonnet 4.6 / Opus 4.6 기준이며, 이후 출시되는 모델에는 내용이 다를 수 있습니다. 정확한 정보는 Anthropic 공식 웹사이트에서 확인하세요.


댓글 남기기