Claude Opus 4.6 / Sonnet 4.6
IT / AI
Claude 1M 컨텍스트, 되는 것과 안 되는 것
2026년 3월 13일, Anthropic이 Claude Opus 4.6과 Sonnet 4.6의 100만 토큰 컨텍스트 윈도우를 정식 출시했습니다. 베타 딱지 떼고 추가 요금도 없앴다는 발표가 나왔는데, 실제로 모든 요금제·모든 환경에서 되는 건지는 헷갈리는 부분이 많았습니다. 공식 발표문을 직접 뜯어보고, 실제 사용자 반응까지 교차 확인했습니다.
1M 컨텍스트, 실제로 얼마나 큰 걸까요?
Claude 1M 컨텍스트라고 하면 숫자만 크게 느껴질 수 있습니다. 토큰 1개가 영어 기준으로 약 0.75단어이니, 100만 토큰은 대략 75만 단어입니다. 웬만한 소설 75권 분량이고, 해리포터 시리즈 전 7권보다도 많습니다.
코드 기준으로는 약 11만 줄에 해당합니다. 중규모 이상 프로젝트의 전체 코드베이스를 세션 하나에 통째로 집어넣을 수 있는 수준입니다. 기존 200K 창에서는 파일을 골라서 넣어야 했던 것과 비교하면, 전략이 완전히 달라지는 규모입니다.
미디어 첨부 한도도 같이 늘었습니다. 기존에는 요청당 이미지·PDF를 최대 100개까지 붙일 수 있었는데, 이번 정식 출시와 함께 600개로 6배 확대됐습니다. (출처: Anthropic 공식 블로그, 2026.03.13)
창이 크면 읽기 능력도 좋아졌을까요?
솔직히 말하면, 컨텍스트 창이 커진다는 발표가 나왔을 때 가장 먼저 든 의심은 “그래서 중간 내용은 제대로 읽긴 하나?”였습니다. 긴 문서를 AI에 넣으면 앞뒤 내용은 잘 기억하면서 중간이 흐릿해지는 현상, 이른바 “중간 소실(lost in the middle)” 문제는 긴 컨텍스트 모델의 고질적인 약점이었습니다.
💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다
MRCR v2(Multi-Round Coreference Resolution) 벤치마크는 3,000페이지 분량의 문서에 숨겨진 두 개의 사실을 동시에 찾아내는 테스트입니다. 하나라도 놓치면 0점입니다. Opus 4.6은 이 테스트에서 78.3%를 기록했고, Gemini 3.1 Pro는 26.3%, 이전 최고였던 Claude 모델은 18.5%였습니다. 단순히 창이 5배 커진 게 아니라 읽기 정확도가 전 세대 대비 4배 이상 올랐다는 의미입니다. (출처: Anthropic 공식 블로그 1M GA 발표, 2026.03.13)
다만 이 수치가 Anthropic 자체 발표 기준이라는 점은 짚어둬야 합니다. 독립 기관의 검증이 아직 완료되지 않았기 때문에, 78.3%를 그대로 받아들이기보다는 “이전 모델 대비 유의미한 개선이 있었다”는 방향으로 이해하는 게 맞습니다. 실제 사용자들도 같은 지적을 하고 있습니다. (출처: Karo Zieminski, Substack 분석, 2026.03.16)
반면 “컨텍스트 로트(context rot)” 문제는 아직 해결되지 않았습니다. 극단적으로 긴 창에서는 모델이 앞서 내린 판단을 이후에 스스로 뒤집는 현상이 여전히 보고됩니다. “더 간단한 방법이 있다”며 이미 논의에서 거부된 방향으로 되돌아가는 사례가 실제 사용자 테스트에서 확인됐습니다. (출처: Karo Zieminski, Substack, 2026.03.16)
비용은 어떻게 바뀌었나요?
이번 발표에서 가장 큰 변화는 창 크기보다 요금 구조입니다. 기존에는 API 요청이 200K 토큰을 넘어가면 Opus 4.6의 입력 단가가 100만 토큰당 $5에서 $10으로 2배 올랐습니다. Sonnet 4.6도 $3에서 $6으로 뛰었습니다. 즉, 긴 대화를 하면 자동으로 요금이 배로 올라가는 구조였습니다.
900K 토큰짜리 요청이 이제 9K 토큰짜리와 동일한 단가로 청구됩니다. 긴 대화 세션에서 기존 대비 입력 비용이 최대 50% 줄어드는 셈입니다. 이게 바로 실제 프로덕션 워크플로를 돌리는 개발자들에게 가장 체감되는 변화입니다.
막상 쓰려면 이 조건을 먼저 봐야 합니다
발표를 보면 “모든 플랜에 출시됐다”는 느낌이 강합니다. 그런데 실제로는 명확히 구분됩니다.
Pro 요금제에서 /extra-usage를 입력해 1M 창을 켜면 추가 비용이 발생합니다. Pro 플랜으로 500K 이상 토큰 세션을 몇 번 돌리면 시간당 사용 한도가 순식간에 차는 구조이므로, Pro 사용자라면 실제로 필요한 경우에만 켜두는 게 낫습니다. Claude Code를 VS Code 내 Windsurf 같은 외부 IDE에 연동해서 쓰는 경우는 아직 CLI 터미널보다 업데이트가 늦어 실제 1M이 적용되지 않는 케이스가 있었습니다.
비용이 절약될 거라는 기대, 여기서 뒤집힙니다
200K짜리 세션을 5번 돌리는 대신, 1M짜리 세션을 1번만 돌리면 “당연히 비싸지 않을까?”라고 생각하기 쉽습니다. 실제 수치는 반대 방향을 가리킵니다.
💡 5회 세션 분할과 1M 단일 세션을 직접 계산해봤습니다
아래는 실제 사용자(Reddit r/ClaudeAI, Performer_First, 2026.03.13)가 Claude와 나눈 대화 검증 내용입니다.
- 200K 세션 5회: 세션마다 CLAUDE.md·핵심 파일·이전 맥락 재독 오버헤드 30~50K 토큰 × 5회 = 최대 250K 토큰 낭비. 유효 작업 토큰 약 750K
- 1M 세션 1회: 초기 로드 비용 약 30K 토큰 1회. 모든 파일을 다시 읽지 않아도 됨. 유효 작업 토큰 약 970K
결론: 1M 단일 세션이 5× 200K 분산 세션보다 유효 토큰 기준으로 약 29% 더 효율적입니다. 파일을 반복해서 읽지 않아도 되기 때문에 실제 청구 토큰 합산도 오히려 줄 수 있다는 의미입니다.
다만 이게 자동으로 절약으로 이어지진 않습니다. 에이전트가 데이터베이스 전체를 한 번에 풀링하거나, 루프 안에서 1M 창을 반복 채우는 설계라면 비용이 폭증합니다. 실제로 Cursor 환경에서 에이전트가 DB 전체를 한 번에 조회하며 800K 토큰을 소모한 사례가 보고됐습니다. 창이 커진 만큼, 무엇을 넣을지 결정하는 판단이 더 중요해진 셈입니다. (출처: Karo Zieminski, Substack, 2026.03.16)
한편 Anthropic의 공식 발표에서 언급된 또 다른 수치가 있습니다. 1M 컨텍스트를 적용한 이후 컴팩션 이벤트가 15% 줄었다는 것입니다. 이는 창이 커지면서 자동 압축 없이 세션을 더 오래 유지할 수 있게 됐고, 중간에 맥락이 유실되는 빈도가 낮아진 것을 의미합니다. (출처: Anthropic 공식 블로그 고객 사례, 2026.03.13)
경쟁 모델과 비교하면 어디가 다른가요?
창 크기만 놓고 보면 Gemini 3.1 Pro도 1M 토큰을 지원합니다. 그러나 MRCR v2 정확도에서 Claude Opus 4.6(78.3%)과 Gemini(26.3%)의 격차는 3배입니다. 창의 크기는 같아도 그 안에서 실제로 얼마나 정확히 찾아내느냐는 완전히 다른 문제입니다. (출처: Anthropic 공식 블로그, 2026.03.13 — 단, 독립 검증 대기 중)
💡 가격 구조를 같이 놓고 보면 이런 차이가 보입니다
- GPT-5.4 API: 272K 토큰 초과 시 입력 단가 2배·출력 단가 1.5배 자동 인상. 250K짜리 요청과 300K짜리 요청의 비용 차가 2배 가까이 됩니다. (출처: Karo Zieminski, Substack, 2026.03.16)
- GPT-4.1 API: 1M 창에서 완전 정액 단가($2/1M 입력). 가격만 보면 Claude와 비슷한 구조입니다.
- Claude Opus 4.6 API: 200K 초과 할증 완전 폐지. $5/$25 전 구간 동일.
- Gemini 3.1 Pro: 1M 창 지원, 멀티미디어(음성·영상) 처리에 강점. 단순 텍스트·코드 리콜은 Claude 대비 낮은 정확도.
claude.ai 웹 인터페이스(구독 앱)에서는 GPT-4o처럼 128K 정도의 창이 적용되고 있어서, 1M 컨텍스트는 현재 개발자 API·Claude Code 환경 중심의 기능입니다. 일반 채팅 이용자에게는 아직 해당하지 않습니다.
Q&A — 자주 나오는 질문 5가지
Q1. Pro 요금제에서도 1M 컨텍스트를 쓸 수 있나요?
▼
Claude Code 안에서 /extra-usage 명령을 입력하면 활성화됩니다. 단, 추가 비용이 발생하며, Pro 플랜의 시간당 사용 한도를 훨씬 빠르게 소모합니다. 일상적인 작업에는 비권장이고, 정말 큰 코드베이스가 필요할 때만 쓰는 게 현실적입니다.
Q2. claude.ai 웹사이트에서도 1M 창을 쓸 수 있나요?
▼
현재는 지원하지 않습니다. 1M 컨텍스트는 Claude Code (Max·Team·Enterprise) 및 API 환경에 한해 적용됩니다. 웹·앱 채팅 인터페이스는 향후 순차 적용될 가능성이 있으나 일정이 공개되지 않았습니다. (확인 필요)
Q3. 900K 토큰 요청을 하면 실제 얼마가 청구되나요?
▼
Opus 4.6 기준으로 계산하면 다음과 같습니다.
입력 900K 토큰 × $5 / 1,000K = $4.50
출력이 50K 토큰이라면 추가로 $1.25가 더해져 총 약 $5.75 수준입니다. 이전에는 200K 초과분이 $10 단가로 적용돼 약 $8.50 이상이었습니다. 단일 요청 기준으로 입력 비용이 약 40~50% 줄었습니다.
Q4. 컨텍스트가 길어질수록 답변이 느려지지 않나요?
▼
1M 창을 가득 채운 세션은 실제로 응답 속도가 200K 세션보다 늦습니다. 그러나 5개 세션을 분리해서 돌릴 때 필요한 재로드·컴팩션·재인식 시간을 합산하면 1M 단일 세션이 전체 작업 시간 기준으로 더 빠른 경우가 많다고 실제 사용자들이 보고하고 있습니다. 항목당 처리 속도보다 총 작업 시간을 기준으로 판단하는 게 맞습니다.
Q5. 세션을 닫으면 1M 컨텍스트도 사라지나요?
▼
맞습니다. 세션 간 기억은 여전히 유지되지 않습니다. 1M 창은 하나의 세션 안에서의 맥락 유지이고, 세션을 닫으면 컨텍스트는 사라집니다. Claude Code의 --resume 옵션으로 동일 디렉터리 세션을 이어갈 수 있으나, 다른 기기·프로젝트 간 맥락 공유는 현재 지원하지 않습니다.
마치며
Claude 1M 컨텍스트 정식 출시에서 실제로 중요한 포인트는 두 가지입니다. 하나는 창 크기 자체가 아니라 그 안에서의 정확도(MRCR v2 78.3%)이고, 다른 하나는 할증 요금이 사라진 요금 구조 변화입니다.
하지만 막상 쓰려면 Max·Team·Enterprise의 Claude Code 환경이어야 하고, 웹 채팅이나 Pro 플랜에서는 조건이 다릅니다. 창이 크다고 비용이 자동으로 늘어나는 게 아니라 오히려 반복 재독 비용이 줄어들 수 있다는 점도 기대했던 것과 달랐습니다. 다만 에이전트 설계에서 컨텍스트를 무분별하게 채울 경우 비용이 폭증할 수 있어, 창이 커질수록 “무엇을 넣을지 고르는 능력”이 더 중요해집니다.
크로스 세션 메모리, 세션 간 지속 기억, 웹 채팅 지원 등은 아직 확인 필요한 영역으로 남아 있습니다. 이 부분은 후속 업데이트를 지켜봐야 합니다.
본 포스팅 참고 자료
- Anthropic 공식 블로그 — 1M Context GA 발표 (claude.com/blog/1m-context-ga), 2026.03.13
- Reddit r/ClaudeAI — 공식 발표 스레드 & 사용자 검증 (reddit.com/r/ClaudeAI/1rsubm0), 2026.03.13
- Karo Zieminski, Substack — “Claude Just Unlocked 1 Million Tokens For Everyone” (karozieminski.substack.com), 2026.03.16
- Anthropic 공식 가격 문서 (platform.claude.com/docs/pricing)
- Reddit r/ClaudeCode — Max 플랜 1M 맥락 미적용 버그 보고 (reddit.com/r/ClaudeCode/1runlul), 2026.03
본 포스팅은 2026년 3월 19일 기준으로 작성됐습니다. Anthropic의 서비스 정책·요금 체계·지원 플랜·기능 범위는 업데이트에 따라 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 최신 정보는 공식 문서(platform.claude.com)에서 반드시 확인하시기 바랍니다.


댓글 남기기