Claude 1M 컨텍스트, 전부 쓰면 오히려 손해입니다

Published on

2026년 3월 22일

2026.03.13 정식 GA 기준 / Claude Sonnet 4.6 · Opus 4.6

Claude 1M 컨텍스트, 전부 쓰면 오히려 손해입니다

2026년 3월 13일, Anthropic이 Claude Opus 4.6·Sonnet 4.6의 1M 토큰 컨텍스트 창을 정식 제공(GA)으로 전환했습니다. 추가 요금도 없앴습니다. 그런데 Anthropic이 직접 공개한 벤치마크 수치를 보면, “크게 쓸수록 좋다”는 직관이 완전히 틀렸다는 걸 알 수 있습니다.

78.3%

1M 토큰 정확도
(MRCR v2)

93%

256K 토큰 정확도
(동일 벤치마크)

↓17%p

256K→1M 정확도 낙차
(Anthropic 자체 수치)

3월 13일에 정확히 무엇이 바뀌었나

2026년 3월 13일, Anthropic은 Claude 공식 계정 X(트위터)를 통해 “1M 컨텍스트 창이 Opus 4.6과 Sonnet 4.6에 정식 제공(Generally Available)됩니다”라고 발표했습니다. (출처: @claudeai 공식 X, 2026.03.13)

핵심 변화는 두 가지입니다. 첫째, 기존에 200K 토큰 초과 시 부과되던 추가 요금(2배 입력 토큰 요금)이 완전히 사라졌습니다. 3월 13일 이전까지 Opus 4.6은 200K 초과 구간에서 입력 토큰 $5/M이 $10/M으로 2배가 되는 서지요금이 적용됐는데, 이 체계가 없어지고 전 구간 동일 단가(Sonnet 4.6 기준 $3/M 입력, $15/M 출력)가 적용됩니다. 즉 900K 토큰 요청도 9K 토큰 요청과 동일한 단가로 청구됩니다.

둘째, 베타 딱지를 떼고 공식 출시로 전환됐습니다. Claude Code Max·Team·Enterprise 플랜은 별도 설정 없이 자동 적용됩니다. 단, Pro 플랜은 자동이 아닙니다 — 이 부분은 섹션 5에서 따로 다룹니다.

▲ 목차로 돌아가기

1M 토큰 = 75만 단어, 실제로 얼마나 큰 규모인가

1M(100만) 토큰이라는 숫자가 얼마나 큰지 감이 잘 안 옵니다. 1토큰은 영어 기준 약 0.75단어이므로, 1M 토큰은 약 750,000단어에 해당합니다. 이를 구체적인 분량으로 환산하면 대략 3,000페이지 분량의 빽빽한 문서, 110,000줄의 코드, PDF나 이미지 600개를 한 세션에 넣을 수 있는 크기입니다. (출처: MindStudio AI 분석, 2026.03.16)

이 정도면 소규모 기업의 전체 계약서 묶음, 중형 오픈소스 프로젝트의 코드베이스 상당 부분, 수개월치 고객지원 로그를 한꺼번에 처리할 수 있습니다. 기존 200K 한도(약 15만 단어)와 비교하면 처리 가능 분량이 5배 늘었습니다.

💡 공식 발표문과 요금 체계 변화를 같이 놓고 보면 이런 차이가 보였습니다.

Anthropic이 3월 13일 이전까지 200K 초과 구간에 2배 서지요금을 부과했다는 사실은 단순한 요금 정책이 아닙니다. 이는 200K가 신뢰할 수 있는 성능 경계였음을 Anthropic 스스로 인정했던 구조입니다. 지금 그 서지요금이 사라진 것은 이 경계가 확장됐다는 신호이기도 하지만, 동시에 그 경계 너머의 구간이 과거엔 사실상 별도 상품이었음을 보여줍니다.

▲ 목차로 돌아가기

256K에서 93%, 1M에서 78% — 숫자가 말하는 진짜 한계

Anthropic이 직접 공개한 MRCR v2(Multi-Round Coreference Resolution) 벤치마크 수치가 핵심입니다. 이 테스트는 3,000페이지 분량 문서 안에 숨긴 정보 조각 8개를 전부 찾아야 점수가 올라가는 구조로, 단 하나라도 놓치면 점수를 주지 않는 엄격한 기준입니다.

모델	256K 정확도	1M 정확도	낙차
Claude Opus 4.6	93%	약 76~78%	↓15~17%p
Gemini 3.1 Pro	—	약 26.3%	—
이전 최고 Claude	—	약 18.5%	—

(출처: Anthropic 공식 GA 발표문, 2026.03.13 / karozieminski.substack.com 분석)

수치를 직접 해석해보겠습니다. 256K 구간에서 93%라는 숫자는, 100번 조회할 때 93번은 정확히 맞힌다는 뜻입니다. 이 정도면 업무 자동화에 충분히 쓸 만합니다. 그런데 컨텍스트를 1M으로 꽉 채우면 78%로 떨어집니다. 4번에 1번꼴로 틀린다는 의미입니다. 1,000건 문서를 처리하면 약 220건에서 오류가 납니다. 검증 단계 없이 자동화를 돌리면 그게 그대로 산출물이 됩니다.

💡 이 벤치마크 수치는 Anthropic이 스스로 공개했다는 점이 중요합니다.

78.3%라는 수치는 Anthropic이 GA 발표문에 직접 올린 숫자입니다. 경쟁사가 폭로한 것도 아니고, 제3자 연구 기관이 독립 측정한 것도 아닙니다. 모델을 가장 잘 아는 회사가 공식 자료에 명시했다는 뜻이므로, 실제 환경에서는 이 수치보다 더 낮게 나올 수 있다는 점을 염두에 두는 게 현명합니다. 아직 독립적인 제3자 검증은 진행 중입니다.

▲ 목차로 돌아가기

요금 체계 변화와 GPT-5.4의 서지요금 함정

이번 GA 전환에서 가장 주목할 점은 요금 구조의 단순화입니다. 3월 13일 이전까지 Claude Opus 4.6은 200K 초과 구간에서 입력 토큰 요금이 2배($5/M → $10/M)로 뛰는 구조였습니다. 이 서지요금이 완전히 사라지고, 전 구간 Opus 4.6 기준 $15/M 입력/$75/M 출력으로 단일화됐습니다. (출처: Anthropic 공식 요금 페이지, 2026.03.13 기준)

경쟁 구도를 살펴보면, GPT-5.4는 정반대의 방향을 취하고 있습니다. GPT-5.4 API는 272K 토큰 초과 시 입력 요금이 2.5배, 출력 요금이 1.5배로 올라가는 서지 구간이 있습니다. 기술적으로는 1M 토큰 이상을 지원하지만, 260K짜리 요청 비용과 300K짜리 요청 비용 차이가 거의 2배입니다. 개발자들이 “월말 청구서 폭탄”이라고 표현하는 이유가 여기 있습니다. (출처: karozieminski.substack.com, 2026.03.16)

직접 계산 예시: Sonnet 4.6으로 900K 토큰 요청 1회 비용 = 900 × $3/M = $2.70 (입력 기준). 3월 13일 이전이라면 700K는 정상 요금($2.10), 200K 초과분 700K는 2배 요금($4.20)으로 총 $6.30이 됩니다. 같은 요청인데 요금이 2.3배 달랐습니다. 지금은 그 차이가 없어졌습니다.

▲ 목차로 돌아가기

Pro 플랜 사용자가 놓치는 숨겨진 조건

Max·Team·Enterprise 플랜이라면 1M 컨텍스트가 자동 적용되지만, Pro 플랜($20/월)은 다릅니다. Claude Code에서 /extra-usage 명령어를 직접 입력해야 1M 컨텍스트 창이 활성화됩니다. (출처: Anthropic GA 발표문, 2026.03.13)

이 설계는 의도적입니다. Anthropic의 수익 구조상 API 및 토큰 소비 기반 매출이 전체의 70~75%를 차지합니다. Pro 플랜에서 1M을 무제한으로 자동 허용하면 구독료($20)보다 토큰 비용이 더 들어가는 역마진 상황이 생깁니다. 사용자에게 명시적 선택을 요구하는 것은 “실제로 필요한 사람만 쓰게”하는 마진 방어 장치입니다. (출처: karozieminski.substack.com 수익 분석, 2026.03.16)

⚠️ Pro 플랜 1M 활성화 방법

Claude Code에서 아래 명령어를 입력하면 해당 세션에서 1M 창이 열립니다.
/extra-usage
이 설정은 세션 단위이며, 새 세션을 시작하면 다시 입력해야 합니다. Max 플랜은 별도 입력 없이 기본 적용됩니다.

참고로 Anthropic은 2026년 3월 한 달 동안 Free 플랜 포함 전 플랜에 보너스 사용량 프로모션을 진행하고 있습니다. 1M 컨텍스트를 실험적으로 써보기에 지금이 가장 비용 부담이 적은 시기입니다.

▲ 목차로 돌아가기

컨텍스트 크게 쓸수록 좋지 않은 이유 — 공식 문서가 인정한 내용

Anthropic의 API 공식 문서 중 “컨텍스트 창 엔지니어링” 항목에는 이런 문구가 있습니다. “더 많은 컨텍스트가 자동으로 더 좋은 것은 아닙니다. 토큰 수가 늘어날수록 정확도와 리콜이 저하되는 현상이 발생하며, 이를 컨텍스트 로트(context rot)라고 합니다.” (출처: platform.claude.com/docs/en/build-with-claude/context-windows, 2026.03 기준)

컨텍스트 로트가 발생하는 이유는 트랜스포머 모델의 구조적 특성에 있습니다. 소프트맥스 어텐션은 전체 토큰 수의 합이 1이 되도록 가중치를 정규화합니다. 50K 토큰 문서에서 특정 정보를 찾을 때 모델은 49,999개 토큰과 경쟁합니다. 500K 토큰이 되면 499,999개와 경쟁합니다. 문맥이 길어질수록 중요한 정보가 주목을 받기 어려워지는 구조입니다. (출처: Softmax Attention Dilution 연구, arxiv:2501.19399, 2025)

💡 Anthropic이 컨텍스트 압축(compaction) 기능을 별도로 만든 이유가 여기 있습니다.

Claude Code에는 세션이 특정 비율에 도달하면 오래된 내용을 자동으로 요약하는 auto-compaction 기능이 있습니다. 또한 CLAUDE_AUTOCOMPACT_PCT_OVERRIDE 환경변수로 이 임계치를 조정할 수도 있습니다. 성능 저하를 막기 위한 완화 도구를 Anthropic 스스로 만들었다는 것은, 저하가 실재한다는 걸 내부적으로 인정한다는 의미입니다.

실제 개발자 커뮤니티에서는 컨텍스트가 50% 이상 찰 때부터 오류 빈도가 올라간다는 경험담이 많습니다. GitHub 이슈 #34685에는 “claude-opus-4-6[1m] 모델을 쓰는 긴 Claude Code 세션에서 컨텍스트 창의 40~48% 이하에서도 성능이 눈에 띄게 저하됐다”는 보고가 올라와 있습니다. 1M 창이 생겼어도 전략 없이 최대치까지 채우는 방식은 권장되지 않습니다.

▲ 목차로 돌아가기

실제로 어느 구간까지 쓰는 게 현명한가

MRCR v2 수치 기준으로는 256K(약 25% 지점)에서 93%가 나오고, 500K(50%) 구간은 아직 독립 검증 수치가 없지만 전문가들은 600K~700K 이전까지는 품질이 유지되는 편이라고 봅니다. Karozieminski의 분석에 따르면 컨텍스트 압축 이벤트가 GA 전환 이후 15% 감소했는데, 이는 더 오랜 세션을 품질 손실 없이 유지하게 됐다는 신호입니다. (출처: karozieminski.substack.com, 2026.03.16)

실용적인 가이드로 정리하면 이렇습니다. 문서 분석·계약서 검토·코드 리뷰처럼 결과 정확도가 중요한 작업이라면 한 세션에 500K 미만을 목표로 잡고, 초과할 것 같으면 compaction 기능을 쓰거나 세션을 새로 여는 것이 낫습니다. 리서치 초안 작성·아이디어 탐색처럼 완벽한 정확도보다 폭넓은 맥락 파악이 중요한 경우는 더 넓게 쓸 수 있습니다.

비용 측면도 고려해야 합니다. Sonnet 4.6으로 900K 토큰을 입력하면 입력 비용만 $2.70입니다. 에이전트 루프처럼 같은 세션이 반복 호출되는 구조라면 한 번의 대화가 수십 달러로 번질 수 있습니다. 실제로 커뮤니티에서는 DB 전체를 컨텍스트로 불러와 세션 1개에 80만 토큰이 소모됐다는 사례도 있습니다. 더 큰 창은 더 큰 청구서로 이어질 수 있습니다.

📌 상황별 권장 컨텍스트 전략

정확도 우선 작업(법률·금융·의료 문서): 256K~500K 이내 유지, 필요 시 세션 분할
코드베이스 분석: 500K~700K까지 허용, auto-compaction 임계치 50% 설정 권장
리서치·아이디어 탐색: 700K~900K 가능, 단 중요한 결론은 직접 검증 필수
에이전트 루프: 루프마다 컨텍스트 소비량 추적 필수, 비용 폭발 주의

▲ 목차로 돌아가기

자주 묻는 질문

Q1. 1M 컨텍스트 창을 쓰면 요금이 더 비싸지나요?

2026년 3월 13일 이후부터는 컨텍스트 길이에 따른 서지요금이 없습니다. Sonnet 4.6은 전 구간 $3/M 입력·$15/M 출력, Opus 4.6은 $15/M 입력·$75/M 출력으로 동일 단가가 적용됩니다. 단, 토큰 수 자체가 늘기 때문에 절대 비용은 당연히 올라갑니다. 900K 토큰을 넣으면 그만큼의 비용이 청구됩니다.

Q2. 78.3% 정확도는 어떤 벤치마크 기준인가요?

MRCR v2(Multi-Round Coreference Resolution) 벤치마크입니다. 약 3,000페이지 분량 문서 안에 숨겨진 정보 8개를 모두 찾아야 점수를 주는 구조입니다. 하나라도 놓치면 점수를 주지 않는 엄격한 기준이며, Anthropic이 GA 발표문에 직접 공개한 수치입니다. 독립적인 제3자 검증은 아직 진행 중입니다.

Q3. GPT-4.1 API도 1M 토큰을 지원한다고 들었는데, Claude와 어떻게 다른가요?

Q4. claude.ai 웹 사이트(앱)에서도 1M 컨텍스트가 작동하나요?

Max·Team·Enterprise 플랜은 자동으로 적용됩니다. Pro 플랜은 Claude Code에서 /extra-usage 명령어로 수동 활성화해야 하며, Free 플랜은 3월 한 달 보너스 사용량 프로모션 기간 동안 일부 실험이 가능합니다. 정확한 플랜별 지원 범위는 변경될 수 있으므로 Anthropic 공식 요금 페이지에서 현재 상태를 확인하는 것을 권장합니다.

Q5. RAG(검색 증강 생성)가 이제 불필요해지나요?

수백만 건 이상의 대규모 문서 데이터베이스에서는 여전히 RAG가 필요합니다. 1M 토큰은 약 75만 단어인데, 중견 기업의 내부 문서 전체를 담기엔 부족합니다. 단, 계약서 묶음·특정 프로젝트 코드베이스·제품 문서처럼 ‘경계가 정해진 문서 세트’에서는 청킹 파이프라인 없이 전체 문서를 직접 입력하는 방식이 실용적이 됩니다. RAG가 불필요해지는 게 아니라, RAG가 필요한 시점의 임계값이 높아진 것입니다.

▲ 목차로 돌아가기

마치며

솔직히 말하면, 이번 GA 발표는 좋은 소식이 맞습니다. 추가 요금 없이 1M 창을 쓸 수 있고, 경쟁 모델 대비 리콜 정확도도 높은 편입니다. 특히 Gemini 3.1 Pro의 1M 기준 26.3%와 비교하면 Claude의 78%는 실질적인 차이입니다.

다만 “1M이니까 전부 채워 넣자”는 접근은 조심해야 합니다. Anthropic 스스로 공식 문서에 컨텍스트 로트가 실재한다고 명시했고, 수치로도 256K → 1M 구간에서 15~17%p 정확도 하락이 있습니다. 큰 창이 생겼다고 전략 없이 최대치를 쓰면, 비용은 비례해서 올라가고 품질은 비례해서 올라가지 않습니다.

작업 유형에 맞는 컨텍스트 운용 전략, 플랜별 활성화 조건 확인, 그리고 중요한 결과물에 대한 검증 단계 — 이 세 가지만 갖추면 1M 컨텍스트 창은 충분히 유용한 도구가 됩니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

Anthropic 공식 발표 — Introducing Claude Sonnet 4.6 (anthropic.com/news/claude-sonnet-4-6)
MindStudio AI — Claude 1M Token Context Window 분석 (mindstudio.ai)
Karo Zieminski — Claude 1M Context Window Guide 2026 (karozieminski.substack.com)
Anthropic 공식 API 문서 — Context Windows (platform.claude.com/docs)
GitHub anthropics/claude-code Issue #35296 — Context Rot 관련 실사용 보고 (2026.03.17)
arxiv:2501.19399 — Softmax Attention Dilution 연구 (2025)

⚠️ 본 포스팅은 2026년 3월 22일 기준 정보를 바탕으로 작성됐습니다. 본 포스팅 작성 이후 Anthropic의 서비스 정책·요금·UI·기능이 변경될 수 있습니다. 벤치마크 수치는 Anthropic 공식 발표 자료를 인용한 것으로, 독립적인 제3자 검증이 완료되지 않은 내용을 포함합니다. Claude Sonnet 4.6 / Opus 4.6 기준이며, 이후 출시되는 모델에는 내용이 다를 수 있습니다. 정확한 정보는 Anthropic 공식 웹사이트에서 확인하세요.

AI 모델 비교, Anthropic Claude Sonnet 4.6, Claude 1M 컨텍스트, 클로드 API, 컨텍스트 창

Claude 1M 컨텍스트, 전부 쓰면 오히려 손해입니다

Claude 1M 컨텍스트, 전부 쓰면 오히려 손해입니다

3월 13일에 정확히 무엇이 바뀌었나

1M 토큰 = 75만 단어, 실제로 얼마나 큰 규모인가

256K에서 93%, 1M에서 78% — 숫자가 말하는 진짜 한계

요금 체계 변화와 GPT-5.4의 서지요금 함정

Pro 플랜 사용자가 놓치는 숨겨진 조건

컨텍스트 크게 쓸수록 좋지 않은 이유 — 공식 문서가 인정한 내용

실제로 어느 구간까지 쓰는 게 현명한가

자주 묻는 질문

마치며

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Claude 1M 컨텍스트, 전부 쓰면 오히려 손해입니다

Claude 1M 컨텍스트, 전부 쓰면 오히려 손해입니다

3월 13일에 정확히 무엇이 바뀌었나

1M 토큰 = 75만 단어, 실제로 얼마나 큰 규모인가

256K에서 93%, 1M에서 78% — 숫자가 말하는 진짜 한계

요금 체계 변화와 GPT-5.4의 서지요금 함정

Pro 플랜 사용자가 놓치는 숨겨진 조건

컨텍스트 크게 쓸수록 좋지 않은 이유 — 공식 문서가 인정한 내용

실제로 어느 구간까지 쓰는 게 현명한가

자주 묻는 질문

마치며

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기