Opus 4.6 1M 컨텍스트, Max 플랜이어도 막히는 조건이 있습니다

Published on

in

Opus 4.6 1M 컨텍스트, Max 플랜이어도 막히는 조건이 있습니다

2026.03.13 GA 정식 지원
Claude Code v2.1.75+ 기준

Claude Opus 4.6 1M 컨텍스트, Max 플랜이어도 막히는 조건이 있습니다

2026년 3월 13일, Anthropic이 Opus 4.6과 Sonnet 4.6의 1M 컨텍스트 윈도우를 정식(GA) 전환했습니다. 추가 요금 없이, beta header 없이, 기존 코드 수정 없이 — 공식 발표는 이렇게 나왔습니다. 막상 써보면 다릅니다. Max $200 플랜을 쓰면서도 rate limit에 걸리는 케이스가 GitHub 이슈로 이미 보고됐고, 1M을 꽉 채워 쓰면 오히려 정확도가 떨어진다는 커뮤니티 보고도 있습니다. 공식 문서와 실사용 데이터를 같이 놓고 직접 확인했습니다.

78.3%
MRCR v2 벤치마크 (프론티어 모델 최고)
$5/$25
Opus 4.6 입력/출력 MTok (전범위 동일 단가)
15%↓
Compaction 이벤트 감소 (실사용 보고)

1M 컨텍스트 정식 지원, 뭐가 바뀐 건지 먼저

2026년 3월 13일 이전까지 Claude Opus 4.6 1M 컨텍스트는 베타 상태였습니다. 200K 토큰을 넘어서면 beta header를 별도로 붙여야 했고, 입력 요금이 표준의 두 배로 뛰었습니다. 실제로 Sonnet 4 기준으로 200K 초과 구간은 입력 $6/MTok, 출력 $22.50/MTok — 일반 요금 대비 정확히 두 배였습니다. (출처: Anthropic 공식 가격 문서, platform.claude.com/docs/en/about-claude/pricing)

3월 13일부터 달라진 핵심은 세 가지입니다. 첫째, Opus 4.6과 Sonnet 4.6에 한해 900K짜리 요청도 9K짜리 요청과 같은 단가($5/$25 MTok)로 청구됩니다. 둘째, 200K를 넘어가도 beta header가 필요 없습니다. 기존 코드를 그대로 두면 자동으로 1M 구간까지 처리됩니다. 셋째, 전용 rate limit이 사라졌습니다. 기존에는 1M 요청에 별도 처리량 제한이 붙었는데, 이제 표준 계정 처리량이 모든 컨텍스트 길이에 동일하게 적용됩니다. (출처: Anthropic 공식 블로그 “1M Context Now Generally Available”, claude.com/blog/1m-context-ga, 2026.03.13)

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다

이전 모델(Sonnet 4, Sonnet 4.5)은 3월 13일 이후에도 구 beta 방식이 유지됩니다. “표준 요금으로 1M 가능”은 오직 Opus 4.6과 Sonnet 4.6에만 해당합니다. 기존 모델에서 1M 구간을 쓰면 여전히 프리미엄 요금이 청구됩니다.

▲ 목차로 돌아가기

Max $200 플랜인데도 막히는 이유가 있습니다

“추가 요금 없이 1M 컨텍스트”라는 공식 발표만 보면, Max 플랜이라면 아무 걱정 없이 쓸 수 있을 것 같습니다. 실제로 2026년 2월 21일, GitHub 공식 이슈 트래커에 이런 보고가 올라왔습니다. Max $200 플랜을 쓰면서 세션 사용량 54%, 주간 사용량 38%만 쓴 상황인데 Opus 4.6[1m] 모델을 선택하자마자 “API Error: Rate limit reached”가 뜬다는 내용이었습니다. (출처: GitHub anthropics/claude-code issue #27535, 2026.02.21)

이슈 보고자가 직접 확인한 것은 이렇습니다. 표준 Opus 4.6(200K 모델)은 같은 조건에서 정상 동작합니다. 플랜 업그레이드 여부를 확인해도 이미 최상위 플랜입니다. 차이는 1M 컨텍스트 전용 분당 처리량 제한이 별도로 존재한다는 것입니다. 공식 발표의 “전용 rate limit 제거”는 3월 13일 GA 이전 베타 기간의 이슈였고, GA 이후에도 1M 요청의 물리적 부하로 인해 분당 처리량이 실질적으로 더 빨리 소진됩니다. 900K짜리 요청 한 방은 9K짜리 요청 100방과 같은 분량의 토큰 처리량을 태웁니다.

⚠️ 실사용에서 확인된 조건
  • 세션/주간 사용량이 남아 있어도 분당 토큰 처리량(TPM)이 1M 요청으로 순식간에 소진될 수 있음
  • rate limit 에러 메시지가 구독 한도와 관계없는 API 레벨 쓰로틀임을 인지할 것
  • 1~5인 팀 기준 Anthropic 공식 권장 TPM은 사용자당 200K~300K — 1M 요청 한 번이 이 범위의 30~50%를 소진 (출처: code.claude.com/docs/en/costs)

공식 문서에서 별도 이유를 밝히지 않았습니다만, 에러가 날 경우 잠시 기다렸다가 재시도하거나, 실제로 1M이 필요한 작업인지 먼저 점검하는 것이 현실적인 대응입니다.

▲ 목차로 돌아가기

1M을 꽉 채우면 오히려 손해인 이유

GeekNews 커뮤니티에 올라온 실제 보고가 흥미롭습니다. 한 사용자가 “gpt5.4도, opus 4.6도 1M 끝까지 쓰는 건 별로다. 700~800K로 끊어 쓰는 게 좋다”는 경험을 공유했습니다. 이것이 근거 없는 느낌이 아닙니다. Anthropic이 공식 블로그에서 언급한 78.3% MRCR v2 벤치마크는 단일 API 호출로 전체 1M을 한 번에 주입하는 방식의 테스트입니다. (출처: Anthropic 공식 블로그, claude.com/blog/1m-context-ga, 2026.03.13)

Claude Code는 실제로 이렇게 동작하지 않습니다. 파일을 도구(Tool)로 순차적으로 읽어들이는 방식이라, 컨텍스트 후반부에 로드된 파일 내용은 초반 내용보다 참조 품질이 낮아질 수 있습니다. 커뮤니티에서 700K~800K를 권장하는 이유가 여기 있습니다. 850K를 넘어가면서부터 정확도 저하를 체감했다는 보고가 반복됩니다. 맥락을 꽉 채우는 것보다, 세션 초반에 핵심 파일을 먼저 로드하는 순서 관리가 더 실질적인 품질 변수가 됩니다.

💡 공식 벤치마크와 실제 Claude Code 작동 방식을 나란히 놓으니 이 차이가 보였습니다

Anthropic이 제시한 78.3%는 “한 번에 넣기” 기준입니다. Claude Code의 “순차적 도구 읽기” 방식에서는 같은 토큰 수라도 초반 로드된 정보의 참조 품질이 훨씬 높습니다. 이 말은 1M 전체를 쓸 수 있다는 것과, 1M을 채웠을 때 정확도가 균일하다는 것은 다른 이야기라는 뜻입니다.

▲ 목차로 돌아가기

Pro vs Max, 1M 기준 실제 비용 구조

공식 문서에 따르면 평균 Claude Code 개발자의 API 환산 토큰 비용은 하루 약 $6, 90%의 사용자가 하루 $12 미만입니다. (출처: code.claude.com/docs/en/costs, Anthropic 공식) 이를 월 단위로 환산하면 평균 약 $180, 상위 10%는 $360 이상입니다. Pro 플랜 $20으로 이 API 환산 가치를 커버할 수 있다는 뜻이고, 이건 상당한 차이입니다.

플랜 월 구독료 1M 컨텍스트 (Opus) API 환산 월 가치
Pro $20 추가 사용량 필요 약 $180 상당
Max 5× $100 기본 포함 (Opus) 약 $900 상당
Max 20× $200 기본 포함 (Opus) 약 $3,600 상당
API 직접 종량 표준 요금 ($5/$25 MTok) 사용량 × 단가

핵심 포인트가 있습니다. Pro 플랜에서 1M 컨텍스트를 쓰려면 “추가 사용량(Extra Usage)”을 활성화해야 합니다. 이 경우 API 요금이 별도 청구됩니다. 실제로 Pro 플랜 사용자가 1M 세션을 자주 돌리면 구독료 $20 외에 API 요금이 합산돼 Max 플랜보다 비싸지는 구간이 생깁니다. 하루 1~2회 1M 세션을 여는 수준이라면 Pro + 추가 사용량이 유리하지만, 하루 4~5회 이상이라면 Max 5×($100)가 현실적입니다. (출처: Anthropic 지원 문서, support.claude.com)

▲ 목차로 돌아가기

Claude Code에서 바로 써먹는 설정 3가지

공식 문서에서 제공하는 환경변수 세 가지를 알아두면 실제 사용 흐름이 달라집니다. 이 내용은 code.claude.com/docs/en/env-vars에 그대로 나와 있습니다.

설정 1

1M 컨텍스트 비활성화 (기업 환경)

CLAUDE_CODE_DISABLE_1M_CONTEXT=1

컴플라이언스 요구나 비용 예측이 중요한 환경에서 1M 옵션 자체를 끌 수 있습니다. settings.json에 env 키로 넣으면 모든 세션에 적용됩니다.

설정 2

Compaction 임계값 낮추기

CLAUDE_AUTOCOMPACT_PCT_OVERRIDE=70

기본값은 95%(950K에서 압축). 70%로 설정하면 700K에서 자동 Compaction이 트리거됩니다. 커뮤니티 권장 700~800K 구간에서 끊는 효과를 자동화합니다.

설정 3

확장 사고 토큰 제한

MAX_THINKING_TOKENS=8000

Extended thinking은 기본 31,999 토큰 예산이 설정돼 있고, 이 토큰은 출력 토큰으로 청구됩니다. Opus 4.6 기준 요청당 최대 $0.80가 사고 토큰만으로 나갈 수 있습니다. 단순한 코딩 작업에서는 8,000으로 낮추는 것이 현실적입니다. (출처: code.claude.com/docs/en/costs)

▲ 목차로 돌아가기

Sonnet 4.6과 어떻게 나눠 쓸지 기준이 생겼습니다

Opus 4.6과 Sonnet 4.6 모두 1M 컨텍스트를 지원합니다. 그런데 Anthropic 공식 권장 전략이 명확합니다. Sonnet 4.6($3/$15 MTok)을 기본으로 쓰고, 다음 상황에서만 Opus 4.6($5/$25 MTok)으로 전환하는 방식입니다. (출처: Anthropic 공식 모델 선택 가이드, platform.claude.com)

Opus 4.6이 명확하게 유리한 케이스는 세 가지입니다. 다중 에이전트 팀을 코디네이션하는 복잡한 워크플로우, 수학적·과학적 추론이 필요한 아키텍처 결정, 그리고 출력을 128K까지 뽑아야 하는 경우입니다. Sonnet 4.6의 최대 출력은 64K인 반면 Opus 4.6은 128K까지 지원합니다. 이 수치 하나만으로도 대규모 리팩터링 결과물을 한 번에 뽑을 수 있느냐 없느냐가 갈립니다.

💡 출력 한도를 기준으로 모델을 고르는 시각은 흔히 다뤄지지 않습니다

128K 출력(Opus 4.6) vs 64K 출력(Sonnet 4.6) — 이 차이는 컨텍스트 입력 크기보다 실전에서 더 자주 결정 변수가 됩니다. 대용량 코드 생성, 전체 파일 재작성, 장문 분석 보고서에서 Sonnet이 중간에 잘리는 경험을 했다면, 그 이유가 여기 있습니다.

반대로 Sonnet 4.6이 나은 상황도 있습니다. 인터랙티브하게 빠른 응답이 필요하거나, 반복적인 코딩 태스크를 다수 처리할 때는 Sonnet의 속도가 실제 체감 차이를 만듭니다. Opus의 훈련 데이터 기준은 2025년 8월, Sonnet 4.6은 2026년 1월로 Anthropic 공식 Transparency Hub에 나와 있습니다. 최신 라이브러리나 프레임워크 관련 코드를 다룰 때는 Sonnet 4.6이 더 최신 지식을 갖고 있습니다.

▲ 목차로 돌아가기

자주 묻는 것들

Q. Pro 플랜에서 1M 컨텍스트를 쓸 수 있나요?
기술적으로는 가능합니다. 다만 “추가 사용량(Extra Usage)”을 먼저 활성화해야 하고, 초과 사용분은 API 요금으로 별도 청구됩니다. 1M 세션을 자주 사용한다면 Max 5×($100)가 총비용 기준으로 유리해지는 구간이 생깁니다. (출처: Anthropic 지원 문서, support.claude.com/en/articles/12429409)
Q. Max $200 플랜인데 rate limit이 걸렸습니다. 뭐가 문제인가요?
구독 한도(세션/주간 사용량)와 API 레벨 분당 처리량(TPM)은 별개입니다. 1M 짜리 요청 한 번이 분당 처리량을 상당히 소진합니다. 공식 GitHub 이슈(#27535)에서도 동일한 케이스가 보고됐습니다. 잠시 기다렸다가 재시도하거나, 정말 1M이 필요한 작업인지 점검하는 것이 현실적인 대응입니다.
Q. Sonnet 4.5에서도 1M 컨텍스트를 표준 요금으로 쓸 수 있나요?
아닙니다. 3월 13일 기준 표준 요금 1M 지원은 Opus 4.6과 Sonnet 4.6에만 해당합니다. Sonnet 4, Sonnet 4.5는 기존 beta 방식이 유지돼 200K 초과 시 2배 요금이 청구됩니다. (출처: Anthropic 공식 블로그, claude.com/blog/1m-context-ga)
Q. AWS Bedrock이나 Vertex AI에서도 동일하게 1M을 쓸 수 있나요?
지원은 되지만 처리량 조건이 다릅니다. AWS Bedrock에서 Opus 4.6의 1M 컨텍스트는 Preview 티어로 제공되며, 처리량이 표준 클래스 대비 낮은 것으로 알려져 있습니다. Google Vertex AI는 200 QPM / 2M input TPM(리전당) 기준으로 제공됩니다. 대규모 1M 요청이 많다면 Anthropic 직접 API를 우선 검토할 것을 권장합니다.
Q. 에이전트 팀(Agent Teams)을 쓰면 토큰이 얼마나 더 나가나요?
Anthropic 공식 문서에 “에이전트 팀은 표준 세션 대비 약 7배의 토큰을 소비한다”고 직접 나와 있습니다. 각 팀원이 독립적인 컨텍스트 윈도우를 유지하기 때문입니다. 에이전트 팀원은 유휴 상태에서도 토큰을 소비하므로, 작업이 끝나면 즉시 정리하는 것이 중요합니다. (출처: code.claude.com/docs/en/costs)

▲ 목차로 돌아가기

마치며

Claude Opus 4.6 1M 컨텍스트 GA 발표는 분명히 의미 있는 변화입니다. 추가 요금 없이 전 구간 표준 단가가 적용되고, beta header 없이 자동으로 동작하는 것은 실제 개발 흐름을 바꿉니다. Compaction 이벤트 15% 감소라는 수치도 실제 사용자 보고에서 나온 것입니다. (출처: claude.com/blog/1m-context-ga)

다만 “Max 플랜이면 다 된다”는 식으로 받아들이면 예상치 못한 상황이 생깁니다. 분당 처리량 제한은 구독 한도와 별개로 존재하고, 1M 전체를 꽉 채우는 것이 최선도 아닙니다. 700~800K 구간에서 Compaction 임계값을 잡아두는 것이 실질적으로 더 안정적인 품질을 만들어줍니다. 공식 발표와 실제 사용 사이의 간격을 미리 알고 쓰는 것과 모르고 쓰는 것은 차이가 납니다.

📚 본 포스팅 참고 자료
  1. Anthropic 공식 블로그 “1M Context Now Generally Available” — claude.com/blog/1m-context-ga (2026.03.13)
  2. Claude Code 공식 비용 문서 — code.claude.com/docs/en/costs
  3. Claude Code 공식 환경변수 문서 — code.claude.com/docs/en/env-vars
  4. Anthropic 공식 가격 문서 — platform.claude.com/docs/en/about-claude/pricing
  5. GitHub 이슈 #27535 “Opus 4.6 1M context unusable on Max plan” — github.com/anthropics/claude-code/issues/27535

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문에 기재된 요금, 플랜 조건, 기술 사양은 Claude Code v2.1.75 / 2026년 3월 13일 기준이며, Anthropic의 공식 업데이트에 따라 달라질 수 있습니다. 최신 정보는 공식 문서에서 직접 확인하시기 바랍니다.

댓글 남기기


최신 글

  • 청년월세지원 신청 2026, 임대차 서류 체크
    청년월세지원 신청 2026 기준으로 나이·거주 요건, 계약서와 이체 내역, 본인·원가구 소득 확인 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 국민취업지원제도 신청 2026, 구직촉진수당 체크
    국민취업지원제도 신청 2026 기준으로 유형과 자격, 월 소득과 재산, 구직활동 계획 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 국민연금 반환일시금 청구 2026, 수급 조건 확인
    국민연금 반환일시금 청구 2026 기준으로 10년 기준, 연령·국외이주 등, 신분·계좌·증빙 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 건강보험 환급금 조회 2026, 본인부담금 확인
    건강보험 환급금 조회 2026 기준으로 공식 화면 여부, 발생 사유, 본인 명의 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 주택청약 당첨 포기 2026, 재당첨 제한 체크
    주택청약 당첨 포기 2026 기준으로 주택 유형과 지역, 일정과 통장 영향, 사유와 소명 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 청약통장 납입회차 확인 2026, 인정금액 체크
    청약통장 납입회차 확인 2026 기준으로 가입일과 회차, 인정 회차, 납입 인정금액 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 토지이용계획확인원 열람 2026, 매수 전 제한 확인
    토지이용계획확인원 열람 2026 기준으로 정확한 필지, 건축 가능성, 개발제한·보전 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 조상땅찾기 온라인 조회 2026, 상속 토지 확인
    조상땅찾기 온라인 조회 2026 기준으로 가족관계 증빙, 성명·주민번호 등, 지번과 면적 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 안심상속 원스톱 서비스 2026, 재산조회 신청 순서
    안심상속 원스톱 서비스 2026 기준으로 신청 가능 가족, 금융·토지·차량, 상속포기 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 전입세대확인서 열람 2026, 계약 전 주소 확인
    전입세대확인서 열람 2026 기준으로 주소와 동·호수, 기존 전입 여부, 등기부·확정일자 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기