Claude Code 1M 컨텍스트, 크게 쓰면 오히려 손해입니다

Published on

in

Claude Code 1M 컨텍스트, 크게 쓰면 오히려 손해입니다

2026.03.13 기준
Claude Code v2.1.76+ / Opus 4.6 기준

Claude Code 1M 컨텍스트,
크게 쓰면 오히려 손해입니다

Anthropic이 2026년 3월 13일 Claude Code 1M 컨텍스트 창을 정식 출시했습니다. 결론부터 말씀드리면, 이게 “크면 클수록 좋다”는 공식이 딱 들어맞지 않는 업데이트입니다. 막상 실제 수치를 보면 생각이 달라집니다.

78.3%
MRCR v2 리콜 점수 (1M 토큰)
$5/$25
Opus 4.6 입력/출력 (1M 동일 단가)
–15%
컨텍스트 압축 이벤트 감소

1M 컨텍스트, 정확히 뭐가 바뀌었나요

2026년 3월 13일, Anthropic은 Claude Opus 4.6과 Sonnet 4.6의 1M 토큰 컨텍스트 창을 정식 출시했습니다. 핵심은 두 가지입니다. 첫째, 200K 초과 구간에 붙던 장기 컨텍스트 할증료가 사라졌습니다. 둘째, Max·Team·Enterprise 플랜에서 Claude Code 세션이 1M 창을 기본으로 씁니다. (출처: Anthropic 공식 블로그 claude.com/blog/1m-context-ga, 2026.03.13)

기존에는 Sonnet 4.6이 200K 초과분에 입력 단가 2배 할증이 붙었고, Opus 4.6은 아예 1M 창 자체가 없었습니다. 이번 변경으로 Opus 4.6 기준 입력 $5, 출력 $25 (100만 토큰 단위)가 전 구간에 동일하게 적용됩니다. 900K짜리 요청이나 9K짜리 요청이나 토큰당 단가가 같습니다.

미디어 한도도 달라졌습니다. 요청당 이미지·PDF 페이지 허용량이 100개에서 600개로 6배 늘었습니다. 베타 헤더(`anthropic-beta: long-context-2025-01-01`)도 더 이상 필요 없습니다. 코드 변경 없이 그대로 쓰면 됩니다.

▲ 목차로 돌아가기

숫자가 크다고 정확히 기억하지 않습니다

💡 공식 발표문과 실제 성능 지표를 같이 놓고 보니 간과하기 쉬운 숫자가 있었습니다.

Opus 4.6이 1M 토큰에서 기록한 MRCR v2 점수는 78.3%입니다. 이게 최고 점수가 맞긴 한데, 뒤집어 보면 5회 중 1회는 정보를 못 찾는다는 뜻입니다. (출처: Anthropic 공식 뉴스룸, 2026.02.05)

직접 비교하면 차이가 더 선명합니다. 동일 모델, 동일 벤치마크에서 256K 구간 점수는 92~93%입니다. 1M 창으로 넘어오는 순간 약 14~15%포인트가 빠집니다. 더 많이 볼 수 있지만, 더 많이 잊을 수 있습니다.

모델 컨텍스트 MRCR v2 점수 비고
Opus 4.6 1M 78.3% 프런티어 모델 최고
Opus 4.6 256K 92~93% 정확도 더 높음
Sonnet 4.5 1M 18.5% 큰 폭 저하
Gemini 2.5 Pro 1M 26.3% Anthropic 발표 수치

※ MRCR v2는 수백만 토큰 문서에 숨긴 정보를 모두 정확히 찾아내는 비율을 측정하는 벤치마크입니다. (출처: Anthropic 공식 GA 발표 및 paddo.dev 기술 분석, 2026.03)

“lost in the middle” 현상은 아직 해결되지 않았습니다. 컨텍스트 가운데 묻힌 정보는 앞·뒤보다 30% 이상 놓치는 경향이 구조적으로 존재합니다. Anthropic 자체 연구에서도 Claude 2.1에 “여기에 가장 관련 있는 문장이 있습니다”라는 프롬프트 한 줄을 추가했더니 장기 컨텍스트 정확도가 27%에서 98%로 뛴 사례가 있었습니다. 모델이 정보를 갖고 있어도 주의를 기울이지 않으면 못 쓰는 겁니다.

▲ 목차로 돌아가기

Pro 플랜은 자동 적용이 아닙니다

💡 공식 발표에서 “전체 사용자 대상”이라고 했지만, 플랜별로 적용 방식이 다릅니다.

Anthropic이 3월 13일 발표한 내용을 그대로 읽으면 1M 창이 모두에게 열린 것처럼 보입니다. 실제로는 플랜별로 경험이 다릅니다. Claude Code 빌더 Boris Cherny가 Threads에 직접 올린 내용 기준으로 정리하면 이렇습니다.

✅ Max / Team / Enterprise

Opus 4.6 세션에서 1M 컨텍스트 자동 기본 적용. 별도 설정 필요 없음.

⚠️ Pro 플랜

Claude Code 터미널에서 /extra-usage 입력 후 수동 활성화 필요. 자동 적용 안 됨.

여기서 간과하기 쉬운 포인트가 있습니다. Pro 플랜에서 `/extra-usage`를 입력해 1M을 켜면, 한 세션에서 컨텍스트가 쌓일수록 주간 사용 한도가 빠르게 소진됩니다. 500K 이상 컨텍스트 상태에서 “감사합니다” 한 줄을 보내도 500K 토큰이 고스란히 다시 처리됩니다. 잘못 쓰면 Pro 플랜 주간 한도를 단 한 세션에 다 쓸 수도 있습니다.

참고로, Cowork 기능에서는 현재(2026년 3월 22일 기준) 1M 컨텍스트 선택 옵션이 별도 제공되지 않습니다. GitHub 이슈 트래커(#36760)에 관련 기능 요청이 올라와 있고, Anthropic이 공식 답변을 아직 내놓지 않은 상태입니다.

▲ 목차로 돌아가기

비용이 복리로 쌓이는 구조를 먼저 봐야 합니다

💡 “단가가 동일하다”는 말과 “실제 청구액이 같다”는 말은 다릅니다. 구체적으로 계산해보니 이런 차이가 있었습니다.

API 기준으로 Opus 4.6 입력 단가는 100만 토큰당 $5입니다. 세션이 900K 토큰에 다다른 상태에서 짧은 메시지 하나를 보내면, 그 짧은 메시지가 900K 컨텍스트를 전부 재처리합니다. LLM은 상태 비저장(stateless) 구조라 매 요청마다 전체 맥락을 다시 읽습니다. 캐싱이 부분적으로 비용을 줄여주긴 하지만, 캐시 히트를 항상 기대할 수는 없습니다.

📊 단순 계산 예시 (Opus 4.6 API 기준, 캐싱 미적용)

  • 900K 토큰 입력 1회: $4.50 (= 900K × $5/1M)
  • 같은 세션 후속 메시지 10회 (메시지는 짧지만 전체 컨텍스트 재처리): 약 $45
  • 하루 2~3세션 반복 시 일일 $9~$13.5 이상 → 월 약 $270~$405 (API 직접 사용 기준)

※ 추정치. 실제 비용은 캐싱 비율, 출력 토큰 수, 플랜 청구 방식에 따라 달라집니다. Hacker News 스레드에서 한 개발자는 Opus 4.6 1M로 하루 $150~$200를 소진한다고 밝혔습니다. (출처: HN #47380647, 2026.03.14)

12-factor agents 프레임워크에서는 컨텍스트 창을 40% 이상 채우면 “dumb zone”에 진입한다고 표현합니다. 신호 대비 노이즈 비율이 나빠지고, 에이전트가 앞에서 이미 결정한 내용을 무시하기 시작합니다. 더 큰 창이 실수를 더 큰 규모에서 할 수 있는 공간을 주는 셈입니다.

실제로 한 개발자가 Cursor에서 Claude Code를 쓰다가 AI 도구 콜 한 번에 데이터베이스 전체가 컨텍스트로 당겨지면서 800K 토큰이 순식간에 소진된 사례를 공유했습니다. 1M 창이 생겼다고 해서 컨텍스트 관리에 손을 놓으면 안 된다는 이유가 여기 있습니다.

▲ 목차로 돌아가기

경쟁사 대비 가격 구조에서 진짜 차이가 납니다

1M 컨텍스트 창 자체는 이제 Claude, GPT-5.4, Gemini 2.5 Pro 모두 지원합니다. 차별화 포인트는 가격 구조입니다.

모델 1M 창 장기 컨텍스트 할증 기준
Claude Opus 4.6 없음 (단가 동일) 2026.03.13
GPT-5.4 272K 초과 시 입력 2배·출력 1.5배 OpenAI 공식 문서
GPT-4.1 없음 (단가 $2/M) OpenAI 공식 문서
Gemini 2.5 Pro 200K 초과 시 $1.25→$2.50/M Google 공식 문서

Anthropic의 이 결정은 단순한 가격 정책이 아닙니다. Anthropic 연간 수익의 약 70~75%가 API·토큰 기반 매출이고, Claude Code 단독으로 연환산 $25억 이상의 매출을 내는 상황입니다. (출처: karozieminski.substack.com, 2026.03 분석) 장기 컨텍스트 할증을 없애 기업 고객의 프로덕션 전환 장벽을 낮추는 전략으로 읽힙니다.

▲ 목차로 돌아가기

컨텍스트 창을 현명하게 쓰는 방법이 따로 있습니다

💡 Anthropic 자체 컨텍스트 엔지니어링 가이드를 발표문과 같이 읽어보니, 공식에서 권장하는 방향이 “최대한 채우기”가 아닌 것을 확인했습니다.

Anthropic이 자체 가이드(anthropic.com/engineering/effective-context-engineering-for-ai-agents)에서 권장하는 원칙은 명확합니다. “원하는 결과를 낼 가능성을 최대화하는 가장 작은 고품질 토큰 집합을 찾아라.” 1M 창을 만들어놓고 스스로 절제를 권고하는 모양새입니다.

실제로 도움이 되는 운용 방식을 세 가지로 정리했습니다.

① 안전망

1M 창은 세션이 예상보다 길어질 때의 여유 공간으로 활용합니다. 처음부터 채우는 걸 목표로 삼으면 비용이 빠르게 늘어납니다.

② 수동 압축

CLAUDE_AUTOCOMPACT_PCT_OVERRIDE 값을 20으로 낮추면 더 일찍, 더 가볍게 압축이 일어납니다. 비용과 정확도의 균형을 직접 조정할 수 있습니다.

③ 세션 분리

무관한 작업을 같은 창에 넣지 않습니다. 하나의 세션에 여러 프로젝트 맥락을 섞으면 품질이 떨어집니다. 1M 창이 생겼어도 이 원칙은 그대로 적용됩니다.

Claude Code의 실제 사용 가능한 컨텍스트 크기도 알아두면 좋습니다. Claude Code는 버퍼로 약 33K 토큰을 예약하고, 사용량 83.5%에서 자동 압축을 시작합니다. 200K 창에서 실제 작업 공간은 약 134K, 1M 창에서는 약 802K입니다. 단순히 5배가 늘어나는 것처럼 보이지만, 첫 번째 손실 압축이 시작되는 시점 자체가 5배 멀어지는 효과가 더 큰 의미를 가집니다.

한 개발자는 이걸 수치로 직접 비교했습니다. 200K 창 세션 5번 대신 1M 창 세션 1번을 쓰면서 Python 파일 전체 감사, 버그 수정 47건, DB 뷰 19개 작업을 한 세션에 끝냈다고 공유했습니다. 세션이 끝날 때마다 맥락을 다시 설명하는 비용이 사라졌기 때문에 실질적인 처리량이 늘어난 사례입니다.

▲ 목차로 돌아가기

자주 묻는 질문

Q. Pro 플랜에서도 1M 컨텍스트를 쓸 수 있나요?
쓸 수 있습니다. 다만 Claude Code 터미널에서 /extra-usage를 입력해서 수동으로 켜야 합니다. 자동으로 활성화되는 건 Max·Team·Enterprise 플랜에서만 해당됩니다. Pro 플랜에서 쓰면 주간 한도 소진 속도가 빨라지는 점을 감안해야 합니다.
Q. 1M 컨텍스트를 켜면 Opus 4.6 가격이 올라가나요?
API 기준으로 토큰당 단가는 동일합니다. Opus 4.6 입력 $5, 출력 $25 (100만 토큰 단위)가 전 구간에 그대로 적용됩니다. 이전에 있던 200K 초과 할증료가 없어졌습니다. 다만 세션이 길어질수록 처리되는 총 토큰 수 자체가 늘기 때문에, 실제 청구 금액은 올라갈 수 있습니다.
Q. claude.ai 웹·앱에서도 1M 컨텍스트가 되나요?
현재는 Claude Code(터미널·VS Code·JetBrains 등)와 API 사용자에게 적용됩니다. claude.ai 웹 채팅 및 iOS 앱에서의 지원 시점은 Anthropic이 아직 공개하지 않았습니다. Reddit 등 커뮤니티에서 요청이 많이 올라오고 있는 상태입니다.
Q. VS Code 확장에서는 1M이 바로 됩니까?
일부 사용자는 CLI 터미널에서는 1M으로 올라갔는데 VS Code 확장에서는 여전히 200K로 보인다고 보고했습니다. 글로벌 설정 파일에서 모델을 “opus”가 아닌 “opus[1m]”으로 명시하거나 해당 항목을 삭제하면 해결된 사례가 있습니다. 이슈가 지속된다면 CLI 버전을 최신으로 업데이트해보는 것이 먼저입니다.
Q. 1M을 쓰면 오히려 느려질 수도 있나요?
네. 컨텍스트가 클수록 처리에 필요한 GPU 메모리가 늘어납니다. Latent Space 분석에서는 글로벌 HBM/DRAM 수급 상황이 병목이 될 수 있다고 지적했습니다. 벤치마크 수치와 실제 부하 환경에서의 응답 속도는 다를 수 있습니다. 특히 대용량 컨텍스트를 쓰는 요청이 많아지는 피크 시간대에는 응답 지연 가능성을 고려하는 것이 좋습니다.

▲ 목차로 돌아가기

마치며 — 총평

솔직히 말하면, 이번 1M 컨텍스트 GA는 단순한 창 크기 업데이트가 아닙니다. 가격 구조를 바꿨고, 경쟁사와의 차별화 전선을 분명히 그었습니다. Max·Team·Enterprise 사용자에게는 세션 중 압축이 줄어드는 실질적인 편의가 있고, API를 쓰는 개발자에게는 장기 컨텍스트 할증이 사라진 것이 가장 체감이 클 겁니다.

다만 “1M이 생겼으니 걱정 없다”는 안도는 금물입니다. MRCR v2 78.3%는 최고 점수지만 동시에 22%의 실패율이고, 컨텍스트를 많이 쌓을수록 비용이 빠르게 올라가는 구조는 변하지 않았습니다. Pro 플랜이라면 수동 활성화인 점도 확인이 필요합니다.

이 업데이트를 가장 잘 쓰는 방법은 결국 컨텍스트 규율을 유지하면서 1M 창을 압축 발생을 미룰 안전망으로 활용하는 것입니다. 큰 창이 생겼다고 해서 좋은 판단이 자동으로 따라오지는 않습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. ① Anthropic 공식 1M Context GA 발표 — claude.com/blog/1m-context-ga (2026.03.13)
  2. ② Anthropic 공식 Claude Opus 4.6 출시 뉴스 — anthropic.com/news/claude-opus-4-6 (2026.02.05)
  3. ③ OpenAI 공식 GPT-5.4 모델 문서 — developers.openai.com/api/docs/models/gpt-5.4
  4. ④ paddo.dev 기술 분석 “Context Stops Being Scarce” — paddo.dev/blog/million-token-context/ (2026.03)
  5. ⑤ Reddit r/ClaudeAI 커뮤니티 토론 — reddit.com/r/ClaudeAI/1rsubm0 (2026.03.13)
  6. ⑥ Karo Zieminski Substack 심층 분석 — karozieminski.substack.com (2026.03.17)

본 포스팅은 2026년 3월 22일 기준 공개된 정보를 바탕으로 작성되었습니다.
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.
Anthropic의 플랜 가격 및 기능은 별도 공지 없이 달라질 수 있으니, 최신 내용은 공식 사이트에서 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기