2026.03.13 정식 출시
Claude Opus 4.6 / Sonnet 4.6 기준

Claude 1M 컨텍스트, 진짜 쓸 수 있는 범위가 달랐습니다

2026년 3월 13일, Anthropic이 Claude Opus 4.6과 Sonnet 4.6의 100만 토큰 컨텍스트 창을 정식 출시했습니다. 추가 요금 없이 전 요금제에서 쓸 수 있다는 발표인데, 막상 공식 벤치마크 수치를 옆에 놓고 보니 이야기가 조금 달라집니다.

최대 컨텍스트 창

78.3%

1M 구간 검색 정확도

93%

256K 구간 검색 정확도

추가 할증 (기존 $5→$10)

1M 토큰이 실제로 얼마나 큰가

1,000,000 토큰은 영어 기준 약 75만 단어입니다. 쪽수로 환산하면 약 2,000~3,000페이지 분량, 평균 분량의 논픽션 책 75권에 해당합니다. 코드로 치면 약 11만 줄, PDF 600개를 한 번에 넣을 수 있는 크기입니다. (출처: Anthropic 공식 발표, 2026.03.13)

이전에는 200K 토큰을 초과하면 Opus 4.6 기준 입력 단가가 100만 토큰당 $5에서 $10으로, 출력은 $25에서 $37.50으로 자동 인상됐습니다. 3월 13일 정식 출시 이후 이 할증이 사라졌습니다. 같은 모델, 같은 품질, 절반 가격으로 긴 대화를 유지할 수 있게 됐다는 게 Anthropic의 발표입니다. 단, API가 아닌 claude.ai 앱에서는 토큰당 과금이 적용되지 않으므로, 위 수치는 API 사용 기준입니다.

1M 토큰이 유용한 워크플로우

대용량 컨텍스트가 가장 체감되는 작업은 크게 네 가지입니다. 법률·계약 문서 검토(수십 건의 계약서를 동시에 불러오는 경우), 전체 코드베이스 기반 버그 추적, 수십 편 논문을 아우르는 연구 합성, 장기 에이전트 작업에서 도구 호출 기록 보존이 이에 해당합니다. 각 시나리오 모두 기존 128K~200K 창에서는 복잡한 청킹 파이프라인이 필요했던 작업들입니다. 창이 커진다는 건, 엔지니어링 오케스트레이션 비용을 줄인다는 뜻이기도 합니다.

▲ 목차로 돌아가기

공식 발표와 벤치마크 수치가 동시에 말하는 것

💡 공식 발표문과 실제 벤치마크 수치를 같이 놓고 보니 이런 차이가 보였습니다.

Anthropic이 3월 13일 발표에서 공개한 MRCR v2(Multi-Round Coreference Resolution) 벤치마크 수치는 다음과 같습니다. 이 벤치마크는 수백만 자 분량의 문서에 숨겨진 특정 정보 여러 개를 모두 찾아내는 테스트로, ‘놓치면 0점’이기 때문에 실제 활용 난이도와 가장 근접한 지표 중 하나로 꼽힙니다.

컨텍스트 길이	Opus 4.6 MRCR v2 정확도	이전 최고 모델 (Sonnet 4.5)
256K 토큰	약 93%	18.5%
1M 토큰 (전체)	76~78.3%	–

(출처: Anthropic 공식 발표, 2026.03.13 / apiyi.com, paddo.dev 교차 확인)

256K 구간과 1M 구간 사이에 약 15~17포인트 차이가 있습니다. 4번 질의하면 1번은 틀린다는 뜻입니다. 합성 벤치마크이기 때문에 실제 코딩 세션처럼 도구 호출 기록, 에러 메시지, 대화 히스토리가 섞이면 저하 폭은 더 커질 수 있습니다. Anthropic 공식 API 문서에도 이렇게 명시돼 있습니다.

“토큰 수가 늘어날수록 정확도와 검색 성능이 저하되는데, 이 현상을 컨텍스트 로트(context rot)라고 부른다. 더 많은 컨텍스트가 자동으로 더 나은 결과를 보장하지 않는다.”

(출처: platform.claude.com/docs, Claude API 공식 문서)

Opus 4.5와 비교하면 같은 1M 구간에서 Opus 4.5의 MRCR v2 점수는 18.5%였습니다. Opus 4.6이 78.3%를 기록했으니 약 4배 개선이 맞습니다. 하지만 비교 기준이 달라집니다. 이전 모델 대비 4배 향상이 맞고, 동일 모델 내 256K vs. 1M 비교에서는 15~17포인트 하락도 맞습니다. 두 수치가 모두 사실이고 모순 없이 공존합니다.

▲ 목차로 돌아가기

Pro 플랜에서 자동 적용 안 되는 이유가 있습니다

💡 정식 출시 발표에서 “마찰 제거”를 강조했지만, 플랜에 따라 마찰이 남아 있습니다.

3월 13일 공식 발표는 “1M 컨텍스트 창이 표준 요금으로 정식 출시됐다”는 내용입니다. 그런데 플랜별 적용 방식이 다릅니다.

플랜	1M 컨텍스트 기본값	활성화 방법
Max / Team / Enterprise	자동 적용	별도 설정 불필요
Pro ($20/월)	수동 활성화 필요	Claude Code에서 `/extra-usage` 입력

(출처: Anthropic 공식 발표 및 제품 페이지, 2026.03.13)

Pro 플랜 사용자가 Claude Code에서 /extra-usage 명령어를 입력하지 않으면 1M 창이 활성화되지 않습니다. “마찰 없음”을 강조한 발표와 달리, Pro에는 명시적 동의 단계가 남아 있습니다. 이 구조를 뒤집으면, Max(월 $100+) 플랜으로의 업그레이드 신호로 기능합니다. 1M 컨텍스트를 자주 쓰고 싶다면 자연스럽게 상위 플랜을 고려하게 되는 흐름입니다.

▲ 목차로 돌아가기

가격 단절이 사라진 배경 — Anthropic의 전략을 읽는 법

💡 할증 제거가 왜 지금인지를 수익 구조 관점에서 들여다보니 맥락이 보였습니다.

기존 구조를 정리하면, Opus 4.6 API 기준 200K 초과 시 입력 단가가 100만 토큰당 $5 → $10으로, 출력이 $25 → $37.50으로 뛰었습니다. 이번 정식 출시로 이 할증이 사라졌고, GPT-5.4의 구조와 직접 비교된다는 점이 흥미롭습니다.

모델	기본 단가 (입력)	장문 할증
Claude Opus 4.6	$5/M 토큰	없음 (3월 13일 이후)
GPT-5.4 (OpenAI)	$2.50/M 토큰	272K 초과 시 2배 적용 (세션 전체)
GPT-4.1 (OpenAI)	$2/M 토큰	없음 (1M 지원)

(출처: OpenAI·Anthropic 공식 API 가격 페이지, 2026.03 기준)

Revenue Memo에 따르면 Anthropic 전체 매출의 70~75%가 API·토큰 기반 소비에서 나옵니다. Claude Code 단독 연간 반복 매출(ARR)이 2026년 초부터 $25억을 돌파했습니다. (출처: karozieminski.substack.com, 2026.03.16) 장문 컨텍스트를 써야 하는 기업 개발팀을 Claude로 묶어두는 게 수익 극대화 전략이며, 할증 제거는 그 마찰 포인트를 없앤 것입니다.

▲ 목차로 돌아가기

컨텍스트 로트 — 숫자보다 구조가 중요한 이유

Anthropic 엔지니어링 블로그에는 “컨텍스트 로트(context rot)는 모든 모델에서 공통으로 발생한다”고 명시돼 있습니다. (출처: anthropic.com/engineering/effective-context-engineering-for-ai-agents) Anthropic이 직접 이름 붙인 현상입니다.

GitHub의 실제 버그 리포트(#35296, 2026.03.17)에는 프로덕션 코드베이스 25개 이상 세션에서 관찰된 패턴이 정리돼 있습니다. 컨텍스트가 어느 지점을 지나면 모델이 자신이 초반에 읽은 사실을 틀리게 재현하면서도, 그 틀림을 알아채지 못합니다. 문제는 ‘틀린 답’이 아니라, ‘틀렸다는 신호가 없는 틀린 답’입니다.

컨텍스트 충전률에 따른 대략적인 동작 패턴 (실사용 보고 기반)

0~25% 구간: 안정적. 문서를 정확하게 읽고 불확실성도 표현합니다.
25~50% 구간: 조금씩 흔들리기 시작. 잘못된 접근을 먼저 시도한 뒤 수정하는 경우가 늘어납니다.
50~70% 구간: 수정 지시를 받아들였다가 재차 같은 오류를 반복하는 패턴이 생깁니다.
70% 초과: 이전에 확인한 사실과 모순된 내용을 신뢰도 있게 출력하기 시작합니다. 세션 재시작이 사실상 필요합니다.

(출처: GitHub anthropics/claude-code #35296, 2026.03.17 — Anthropic 공식 입장이 아닌 사용자 보고 기반)

Anthropic의 공식 API 문서에 compaction_control 파라미터가 따로 존재하고, Claude Code에는 CLAUDE_AUTOCOMPACT_PCT_OVERRIDE 환경변수가 있다는 사실도 같은 맥락입니다. 잘 작동하는 기능을 위한 완화 인프라를 따로 만들지는 않습니다.

▲ 목차로 돌아가기

지금 당장 쓸 수 있는 컨텍스트 관리 방법

1M 컨텍스트가 진짜 쓸모 있는 상황과, 그냥 사이즈만 큰 상황을 구분하는 게 먼저입니다. 솔직히 말하면, 대부분의 작업은 256K 이하에서도 충분합니다. 컨텍스트 관리를 모델에 통째로 맡기지 않는 게 핵심입니다.

50% 전에 /compact

Claude Code에서 컨텍스트가 40~50%를 넘기 전에 수동으로 /compact를 실행합니다. MRCR v2 93% 구간 안에서 세션을 유지하는 가장 직접적인 방법입니다.

계획 파일을 파일시스템에 저장

세션이 끊기거나 컴팩션 이후 복구할 수 있도록, 중요한 결정과 진행 상태를 plan.md에 저장합니다. 컨텍스트가 아닌 파일시스템을 공유 상태로 씁니다.

백그라운드 에이전트 분리

독립적으로 처리 가능한 작업은 Claude Code의 백그라운드 에이전트에 위임합니다. 에이전트는 별도 컨텍스트 창을 씁니다. 메인 세션의 컨텍스트 소모를 줄입니다.

API 사용 시 비용 추정

900K 토큰 세션은 Opus 4.6 기준 입력 토큰만 약 $4.50입니다. 한 번짜리 리서치라면 괜찮지만, 에이전트 루프에서 반복 실행하면 월 청구서가 빠르게 불어납니다. 반드시 사전 계산 후 사용하세요.

실제 한 개발자가 Cursor에서 AI 도구 호출 한 번으로 데이터베이스 전체를 불러와 800K 토큰을 소비한 사례가 보고됐습니다. (출처: karozieminski.substack.com, 2026.03.16) 창이 커질수록 방심했을 때의 비용 폭발 규모도 커집니다. 1M은 허용치이지 권장치가 아닙니다.

▲ 목차로 돌아가기

Q&A

Q. Pro 플랜에서도 1M 컨텍스트를 쓸 수 있나요?

쓸 수 있습니다. 다만 자동 적용이 아닙니다. Claude Code 내에서 /extra-usage를 먼저 입력해야 활성화됩니다. Max, Team, Enterprise 플랜은 Opus 4.6 기본값이 1M 창으로 자동 설정됩니다.

Q. 1M 전체 구간에서 품질이 균일한가요?

공식 MRCR v2 벤치마크 기준으로 256K 구간에서 약 93%, 1M 전체에서 약 76~78%입니다. (출처: Anthropic 발표, 2026.03.13) 수치로 보면 15~17포인트 차이입니다. Anthropic API 공식 문서도 “토큰이 늘어날수록 정확도와 검색 성능이 저하된다”고 명시하고 있습니다.

Q. 컨텍스트 로트는 어떻게 줄일 수 있나요?

Claude Code에서 /compact를 컨텍스트 40~50% 시점에 먼저 실행하는 게 가장 직접적인 방법입니다. Anthropic은 CLAUDE_AUTOCOMPACT_PCT_OVERRIDE 환경변수로 자동 컴팩션 임계값을 조정할 수 있도록 제공하고 있습니다. 백그라운드 에이전트로 작업을 분리하는 것도 메인 세션 컨텍스트를 절약하는 방법입니다.

Q. Gemini나 GPT-5.4와 비교하면 어느 쪽이 낫나요?

용도에 따라 다릅니다. 텍스트·코드 중심 장문 작업에서는 Claude의 MRCR v2 점수가 Gemini보다 높습니다(78.3% vs. 26.3%). GPT-5.4는 272K 초과 시 세션 전체에 2배 요금이 소급 적용되는 반면, Claude는 1M 전 구간이 동일 단가입니다. 반면 이미지, 음성, 영상이 섞인 멀티모달 작업에서는 Gemini가 더 자연스럽습니다. 모델 선택 전에 본인 워크플로우에서 어떤 포맷이 주로 쓰이는지 먼저 확인하는 게 맞습니다.

Q. API 사용 시 900K 토큰 세션의 비용은 얼마인가요?

Opus 4.6 기준 입력 단가가 100만 토큰당 $5이므로, 900K 토큰 입력만으로 약 $4.50가 소비됩니다. 출력이 추가로 발생하면 $25/M 기준으로 더 붙습니다. 에이전트 루프처럼 반복 실행하는 구조라면 하루 비용이 수십 달러를 넘기기 쉽습니다. 실험 전에 최대 소비량을 계산해 두는 게 좋습니다. (출처: anthropic.com/pricing, 2026.03 기준)

▲ 목차로 돌아가기

마치며

Claude 1M 컨텍스트 정식 출시는 분명 의미 있는 변화입니다. 장문 에이전트 작업에서 복잡한 청킹 파이프라인을 줄일 수 있고, 할증 없는 단일 요금 구조는 장기 세션 설계를 단순하게 만들어 줍니다. 특히 이전 모델 대비 MRCR v2 정확도가 4배 이상 향상된 건 수치가 아니라 질적 변화입니다.

하지만 “1M 창 = 1M 전 구간 균일 품질”은 아닙니다. 공식 발표와 공식 벤치마크를 같이 읽으면 256K에서 93%, 1M에서 76~78%라는 격차가 보입니다. Anthropic이 컨텍스트 로트를 인정하고, 그걸 완화하는 도구를 공식 API에 심어두었다는 점이 이 차이를 방증합니다. 1M 창은 허용치이고, 안정적인 신뢰 구간은 그보다 낮습니다.

개인적으로는, 이번 정식 출시에서 가장 주목할 변화가 숫자보다 가격 구조 변경이라고 봅니다. 비용 절벽을 없앰으로써 장문 워크플로우를 Claude 위에 구축하려는 팀에게 명확한 메시지를 보냈기 때문입니다. 어떤 모델이 맞는지보다, 어떻게 컨텍스트를 설계하느냐가 여전히 더 중요한 질문입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

Anthropic 공식 발표 — Introducing Claude Opus 4.6 (anthropic.com/news/claude-opus-4-6)
Anthropic Claude Sonnet 4.6 발표 (anthropic.com/news/claude-sonnet-4-6)
Anthropic API 공식 문서 — Context Windows (platform.claude.com/docs)
Anthropic 엔지니어링 블로그 — Effective Context Engineering (anthropic.com/engineering)
MindStudio — Claude 1M Token Context Window AI Agents (mindstudio.ai/blog)
Karolina Zieminski — Claude 1M Context Guide 2026 (karozieminski.substack.com)
GitHub anthropics/claude-code — Issue #35296 (2026.03.17)

본 포스팅은 2026년 3월 27일 기준으로 작성됐습니다. Claude Opus 4.6 / Sonnet 4.6, Claude Code 2.1.71 기준입니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 수치 인용 시에는 각 출처 원문을 직접 확인하시기 바랍니다.

Claude 1M 컨텍스트, 진짜 쓸 수 있는 범위가 달랐습니다

Claude 1M 컨텍스트, 진짜 쓸 수 있는 범위가 달랐습니다

1M 토큰이 실제로 얼마나 큰가

1M 토큰이 유용한 워크플로우

공식 발표와 벤치마크 수치가 동시에 말하는 것

Pro 플랜에서 자동 적용 안 되는 이유가 있습니다

가격 단절이 사라진 배경 — Anthropic의 전략을 읽는 법

컨텍스트 로트 — 숫자보다 구조가 중요한 이유

지금 당장 쓸 수 있는 컨텍스트 관리 방법

Q&A

마치며

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Claude 1M 컨텍스트, 진짜 쓸 수 있는 범위가 달랐습니다

Claude 1M 컨텍스트, 진짜 쓸 수 있는 범위가 달랐습니다

1M 토큰이 실제로 얼마나 큰가

1M 토큰이 유용한 워크플로우

공식 발표와 벤치마크 수치가 동시에 말하는 것

Pro 플랜에서 자동 적용 안 되는 이유가 있습니다

가격 단절이 사라진 배경 — Anthropic의 전략을 읽는 법

컨텍스트 로트 — 숫자보다 구조가 중요한 이유

지금 당장 쓸 수 있는 컨텍스트 관리 방법

Q&A

마치며

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기