Opus 4.6 / Sonnet 4.6 기준
Claude Code 1M 컨텍스트,
요금제마다 작동 방식이 다릅니다
2026년 3월 13일, Anthropic이 Claude Opus 4.6과 Sonnet 4.6에 100만 토큰 컨텍스트 윈도우를 정식 출시했습니다.
“이제 전부 다 돼요”라고 알려진 것과 달리, Pro 플랜은 기본 비활성화입니다.
요금제별로 작동 방식이 완전히 다르고, 모르면 그냥 200K에서 계속 쓰게 됩니다.
요금제별 1M 컨텍스트 활성화 방법
같은 날 출시됐지만, 요금제마다 시작점이 다릅니다
2026년 3월 13일 공식 GA 발표 이후 “이제 1M 다 된다”는 얘기가 많이 돌았는데, Claude Code 공식 문서를 직접 확인해보니 요금제마다 작동 방식이 명확히 다릅니다.
Max·Team·Enterprise 플랜은 Opus 4.6 세션에서 1M 컨텍스트가 자동으로 기본 적용됩니다.
별도 설정 없이도 Claude Code를 열면 곧바로 100만 토큰 창이 작동합니다.
Pro 플랜은 직접 켜야 합니다
Pro 플랜은 기본값이 아닙니다. Claude Code 공식 문서에 따르면, Pro 플랜 사용자가 1M 컨텍스트를 쓰려면
Extra Usage를 별도로 활성화해야 합니다. (출처: Claude Code 공식 문서 model-config, 2026.03.13 기준)
활성화를 안 하면 기존 200K 창에서 계속 작업하게 되는데, 이걸 모르는 채로 쓰는 경우가 꽤 있습니다.
| 요금제 | 기본 컨텍스트 | 1M 활성화 | 기본 모델 |
|---|---|---|---|
| Max / Team Premium | 1M 자동 | 별도 설정 불필요 | Opus 4.6 |
| Enterprise | 1M 자동 | 별도 설정 불필요 | Opus 4.6 |
| Pro | 200K (기본) | Extra Usage 필요 | Sonnet 4.6 |
| Team Standard | 200K (기본) | Extra Usage 필요 | Sonnet 4.6 |
| API 직접 사용 | 1M 자동 | beta 헤더 불필요 | 선택 |
※ 출처: Anthropic 공식 블로그 (claude.com/blog/1m-context-ga), Claude Code 공식 문서 (code.claude.com/docs/ko/model-config), 2026.03.13 기준
200K → 1M, 실제로 얼마나 달라지나
숫자만 보면 5배지만, 작업 단위로 보면 다릅니다
200K 토큰은 약 15만 단어, 한글 기준으로는 문고판 소설 2~3권 분량입니다.
1M 토큰은 약 75만 단어, 소설 15권 이상 분량이고 110,000줄의 코드를 한 세션에 올릴 수 있습니다.
수치가 5배 커지는 건데, 실제 개발 환경에서 이 차이가 갑작스럽게 크게 느껴지는 순간이 있습니다.
💡 공식 발표 수치와 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다
Anthropic 공식 블로그에 실린 개발자 사례를 보면, Opus 4.6의 1M 컨텍스트 전환 이후
“컨텍스트를 200K에서 500K로 올렸더니 오히려 전체 토큰 사용량이 줄었다”는 증언이 있습니다.
Izzy Miller(AI Research Lead)의 말로, 더 넓은 창이 오히려 토큰을 아끼는 결과로 이어졌습니다.
(출처: claude.com/blog/1m-context-ga, 2026.03.13)
창이 넓어질수록 불필요한 재요청이 줄어, 총 사용 토큰이 감소하는 역설이 생깁니다.
미디어 한도도 함께 올랐습니다
텍스트뿐 아니라, 한 세션에 올릴 수 있는 이미지와 PDF 페이지 수도 100장에서 600장으로 6배 늘었습니다.
(출처: Anthropic 공식 블로그, 2026.03.13) 계약서 검토, 문서 세트 분석처럼 파일을 많이 붙이는 작업에서 체감이 큽니다.
기존에 분할 처리하던 방식이 단일 세션으로 바뀝니다.
가격 구조가 바뀐 것이 핵심입니다
이전엔 200K를 넘으면 요금이 2배가 됐습니다
GA 이전까지는 API 요청이 200K 토큰을 넘으면 Opus 4.6 기준 입력 토큰 가격이
1M당 $5에서 $10으로, Sonnet 4.6은 $3에서 $6으로 두 배 뛰는 구조였습니다.
200K 직전까지 쓰려고 세션을 억지로 끊거나, 컨텍스트를 압축하는 방식으로 작업하던 이유가 여기 있었습니다.
지금은 900K 요청도 9K 요청과 같은 단가입니다
공식 발표에 따르면, GA 이후 장문 컨텍스트 추가 요금이 완전히 사라졌습니다.
Opus 4.6은 전체 창 기준 1M 토큰당 입력 $5, 출력 $25,
Sonnet 4.6은 입력 $3, 출력 $15로 고정됩니다. (출처: claude.com/blog/1m-context-ga, 2026.03.13)
900K 토큰짜리 요청이 9K 요청과 완전히 같은 단가입니다. 요금 절벽이 없습니다.
💡 기존에 분할 처리하던 비용 구조를 다시 계산해볼 이유가 생겼습니다
컨텍스트 분할을 위해 RAG 파이프라인을 구축하고 운영하는 데는 엔지니어링 시간이 들어갑니다.
단일 1M 호출 하나로 동일한 작업을 처리할 수 있다면, 토큰 단가가 같더라도
인프라 운영 비용 전체로 보면 줄어드는 구조가 됩니다.
(Medium 기술 분석, lalatenduswain, 2026.03.18 기준)
RAG 파이프라인 유지비와 1M 단일 호출 비용을 같이 놓고 봐야 진짜 비용이 나옵니다.
Claude Code 컴팩션이 줄어드는 이유
컴팩션이 뭔지부터 짚고 가겠습니다
Claude Code를 오래 쓴 분들은 컴팩션을 경험해봤을 겁니다.
세션이 길어지면 Claude가 이전 대화를 자동으로 요약·압축해서 공간을 만드는 기능입니다.
문제는 이 과정에서 첫 한 시간에 내렸던 아키텍처 결정,
코드 맥락, 특정 변수 이름 선택 이유 같은 것들이 증발한다는 점입니다.
1M 전환 후 컴팩션 발생이 15% 줄었습니다
Anthropic 공식 발표에서 인용된 CPO Jon Bell의 증언에 따르면,
1M 컨텍스트 전환 이후 에이전트의 컴팩션 발생 횟수가 15% 감소했습니다.
(출처: claude.com/blog/1m-context-ga, 2026.03.13)
컴팩션이 15% 줄어든다는 건 처음부터 끝까지 맥락을 잃지 않고 작업을 이어갈 확률이 그만큼 높아진다는 뜻입니다.
Claude Code 공식 문서의 컴팩션 조정 팁
컴팩션이 발생할 때 무엇을 우선 보존할지 CLAUDE.md에 직접 지시할 수 있습니다.
공식 문서에서 소개하는 방법은 아래와 같습니다. (출처: code.claude.com/docs/ko/costs, 2026.03.13 기준)
# CLAUDE.md 예시 # Compact instructions When you are using compact, please focus on test output and code changes
1M 창이 생겨도 컴팩션이 완전히 사라지지는 않습니다.
세션이 충분히 길어지면 여전히 발생할 수 있으므로,
CLAUDE.md에 컴팩션 우선순위를 명시해 두면 핵심 맥락을 유지하는 데 도움이 됩니다.
GPT-5.4와 비교하면 보이는 것이 있습니다
용량은 비슷한데, 요금 구조가 전혀 다릅니다
입력 토큰이 272K를 넘는 순간 입력 단가가 2배, 출력 단가가 1.5배로 올라갑니다.
이건 272K를 초과한 양만이 아니라 해당 세션 전체에 소급 적용됩니다.
(출처: Product with Attitude, karozieminski.substack.com, 2026.03.16)
| 항목 | Claude Opus 4.6 | GPT-5.4 | GPT-4.1 |
|---|---|---|---|
| 최대 컨텍스트 | 1M | 1.05M | 1M |
| 장문 요금 추가 | 없음 | 272K 초과 시 2배 | 없음 |
| 입력 단가(1M당) | $5 | $2.50 (→$5 초과 시) | $2 |
| MRCR v2 정확도 | 78.3% | 비공개 | 비공개 |
※ 출처: Anthropic 공식 블로그(2026.03.13), Product with Attitude(2026.03.16) 기반 정리. GPT-5.4 수치는 해당 분석 기준.
Gemini와 비교하면 정확도 차이가 드러납니다
다만 Anthropic 발표 기준으로 MRCR v2 정확도는 Opus 4.6이 78.3%인 반면,
창의 크기가 같아도, 중간에 숨어있는 정보를 얼마나 정확히 찾아내느냐는 별개 문제입니다.
1M 컨텍스트를 써도 조심해야 할 상황
창이 커질수록 비용 폭발 위험도 커집니다
실제 개발자 커뮤니티에서 공유된 사례 중 Cursor 환경에서 단일 AI 도구 호출이
데이터베이스 전체를 끌어오며 800K 토큰을 한 번에 소비한 경우가 있었습니다.
Opus 4.6 기준으로 900K 입력 요청의 비용은 약 $4.50입니다.
한 번의 루프성 호출이면 청구서가 급격히 늘어납니다. (출처: Product with Attitude, 2026.03.16 기준)
⚠️ 에이전트 루프에서 1M 컨텍스트를 쓸 때 반드시 확인할 것
- MCP 서버가 외부 DB를 통째로 끌어오도록 설정돼 있지 않은지 확인
- 반복 루프가 있는 에이전트는 회차당 토큰 상한을 명시적으로 제한
- Claude Code 공식 문서 /cost 명령어로 누적 비용 주기적 확인
- 비활성화 필요 시
CLAUDE_CODE_DISABLE_1M_CONTEXT=1환경 변수로 강제 비활성화 가능
“중간에 넣은 정보는 기억을 못 한다”는 문제는 아직 완전히 해결되지 않았습니다
AI 연구 커뮤니티에서 꾸준히 언급되는 “lost in the middle” 현상, 즉 컨텍스트 앞뒤는 잘 기억하지만
중간에 위치한 정보는 회수율이 떨어지는 문제는 1M 창에서도 완전히 해소되지 않습니다.
MRCR v2에서 78.3%라는 수치는 역으로 21.7%는 놓친다는 의미이기도 합니다.
(출처: Medium 기술 분석, lalatenduswain, 2026.03.18)
응답 속도 문제는 실시간 앱에서 여전히 걸립니다
1M 토큰을 처리하는 데 걸리는 시간은 200K 처리보다 물리적으로 깁니다.
배치 작업, 문서 분석, 코드 리뷰처럼 비동기·오프라인 처리에는 맞지만
사용자가 실시간으로 기다리는 인터페이스에는 지연이 체감됩니다.
이건 Anthropic이 공식 답변을 내놓지 않은 부분이며, 실제 서비스에 배포 전 자체 벤치마크가 필요합니다.
자주 묻는 질문
마치며
Claude Code 1M 컨텍스트를 한 줄로 정리하면 이렇습니다.
Max·Team·Enterprise는 그냥 쓰면 되고, Pro는 직접 켜야 합니다.
GA 발표가 “모두에게 열렸다”는 식으로 퍼지다 보니, Pro 플랜 사용자가 별도 활성화 없이
계속 200K에서 작업하는 경우가 적지 않을 것 같습니다.
가격 구조가 바뀐 것도 체감보다 의미가 큽니다.
200K를 넘는 순간 요금이 두 배가 되던 구조가 사라지고, 이제 세션 길이를 신경 쓰지 않고 작업할 수 있습니다.
이게 단순히 “더 많이 넣을 수 있다”는 것 이상으로, RAG 파이프라인을 새로 구성해야 할지
검토하는 기준이 달라졌다는 의미입니다.
단, 창이 넓어졌다고 모든 문제가 해결되지는 않습니다.
컴팩션은 여전히 발생하고, 중간 위치 정보의 정확도 문제도 남아 있습니다.
에이전트 루프에서 비용 폭발 위험도 실제로 존재합니다.
이번 업데이트로 실질적으로 달라지는 것과 아직 한계인 것을 구분해서 쓰는 게 중요합니다.
본 포스팅 참고 자료
본 포스팅은 2026년 3월 21일 기준 공식 자료를 바탕으로 작성됐습니다.
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.
Anthropic의 업데이트에 따라 요금제별 활성화 방식 및 가격 구조가 달라질 수 있으니
최신 정보는 공식 문서에서 직접 확인하시기 바랍니다.


댓글 남기기