Claude Code / Opus 4.6 · Sonnet 4.6
Claude Code 1M 컨텍스트,
요금이 반으로 줄었습니다
2026년 2월 5일 Opus 4.6 출시 당시, 200K 토큰을 넘기면 입력 요금이 2배로 뛰었습니다. 3월 13일 정식 출시(GA)로 그 프리미엄 요금이 완전히 사라졌습니다. Claude Code Max·Team·Enterprise 플랜에서는 Opus 4.6이 자동으로 1M 컨텍스트를 쓰고, 추가 요금도 없습니다.
베타 때와 지금, 요금이 얼마나 달라졌나
결론부터 말씀드리면, 1M 컨텍스트 요금 구조가 약 37일 사이에 완전히 바뀌었습니다. 2월 5일 Opus 4.6이 처음 출시됐을 때, 200K 토큰을 초과하는 입력에는 입력 $10/M, 출력 $37.50/M이라는 프리미엄 요금이 붙었습니다. 즉, 표준 요금($5/$25)의 각각 2배, 1.5배였죠. (출처: Anthropic 공식 출시 발표, 2026.02.05)
| 구분 | 베타 (2.5~3.12) | GA 이후 (3.13~) |
|---|---|---|
| Opus 4.6 입력 | $10.00/M (200K 초과 시) | $5.00/M (전 구간 동일) |
| Opus 4.6 출력 | $37.50/M (200K 초과 시) | $25.00/M (전 구간 동일) |
| Sonnet 4.6 입력 | $6.00/M (200K 초과 시) | $3.00/M (전 구간 동일) |
| Sonnet 4.6 출력 | $22.50/M (200K 초과 시) | $15.00/M (전 구간 동일) |
(출처: Anthropic 공식 발표 2026.02.05 / claude.com/blog/1m-context-ga 2026.03.13)
2월 블로그 글들이 “200K 초과하면 요금 2배”라고 썼던 건 당시 사실이었습니다. 지금은 틀린 정보입니다. GA 발표문에는 “900K 토큰 요청도 9K 요청과 동일한 단가로 청구된다”고 명시돼 있습니다.
1M 컨텍스트, 실제로 어떤 플랜에서 쓸 수 있나
Claude Code에서 1M 컨텍스트 자동 적용은 Max, Team, Enterprise 플랜의 Opus 4.6 세션에만 해당됩니다. 이 플랜에서는 200K를 넘어도 추가 사용(extra usage)으로 차감되지 않습니다. (출처: claude.com/blog/1m-context-ga, 2026.03.13)
API를 직접 쓰는 경우라면 별도 설정 없이 바로 됩니다. 이전에 200K 초과 요청에 `anthropic-beta: max-tokens-3-5-sonnet-20241022` 같은 베타 헤더를 붙였다면, 3월 13일 이후로는 해당 헤더가 있어도 무시됩니다. 코드 변경 없이 자동 적용됩니다.
미디어 한도도 바뀌었습니다. 기존 1회 요청당 이미지 또는 PDF 100페이지까지였던 게, GA 이후 600개/페이지로 6배 늘었습니다. AWS Bedrock, Google Cloud Vertex AI, Microsoft Foundry를 통해 쓰는 경우에도 동일하게 적용됩니다.
Sonnet 4.5와 Sonnet 4 모델은 200K 초과 요청에 여전히 context-1m-2025-08-07 베타 헤더가 필요하며, 사용 티어 4 이상 계정에서만 활성화됩니다. (출처: platform.claude.com/docs/en/build-with-claude/context-windows)
크다고 무조건 좋은 게 아닌 이유가 있습니다
Anthropic 공식 문서에는 “more context isn’t automatically better”라는 문장이 그대로 나옵니다. (출처: platform.claude.com/docs/en/build-with-claude/context-windows) 1M을 쓸 수 있다고 해서 무조건 1M을 채우는 게 최선이 아닌 이유입니다.
Anthropic이 직접 정의한 개념인 컨텍스트 로트(context rot)를 알아야 합니다. 컨텍스트 길이가 늘어날수록 모델의 정보 회상 정확도가 서서히 떨어지는 현상입니다. 트랜스포머 아키텍처의 어텐션 메커니즘은 n개 토큰 간 n²개의 쌍(pair) 관계를 계산하는데, 토큰이 많아질수록 각각의 쌍에 할당되는 어텐션 예산이 희석됩니다. (출처: anthropic.com/engineering/effective-context-engineering-for-ai-agents)
Opus 4.6의 MRCR v2 1M 구간 점수는 78.3%입니다. 반면 Sonnet 4.5는 동일 벤치마크에서 18.5%를 기록했습니다. (출처: Anthropic 공식 발표, 2026.02.05) 같은 1M이라도 모델에 따라 실효 성능 차이가 4배 이상 납니다.
실제 사용 후기에서도 이 부분이 나옵니다. LinkedIn에서 Brad Feld는 “컨텍스트 로트와 컨텍스트 드리프트는 1M이 돼도 여전히 싸워야 할 문제”라고 적었고(출처: LinkedIn, 2026.03.13), morphllm.com은 “1M 컨텍스트 윈도우를 가진 모델도 50K 토큰에서 컨텍스트 로트가 나타난다”고 측정했습니다. 모델의 최대 창이 커졌다는 것과, 그 창 전체를 효율적으로 쓸 수 있다는 것은 다른 이야기입니다.
직접 따라할 수 있는 비용 계산식
API로 Opus 4.6을 사용한다고 가정하고, 대규모 코드베이스 분석 시나리오를 숫자로 뽑아봤습니다.
📌 시나리오: 500K 입력 토큰 + 10K 출력 토큰 1회 요청
[베타 기준 (2026.02.05~03.12)]
입력: 500K × $10.00 / 1,000K = $5.00
출력: 10K × $37.50 / 1,000K = $0.375
합계: $5.375
[GA 기준 (2026.03.13~)]
입력: 500K × $5.00 / 1,000K = $2.50
출력: 10K × $25.00 / 1,000K = $0.25
합계: $2.75
→ 동일 작업 비용이 48.8% 감소합니다.
하루 이런 요청을 20회 반복하는 팀 기준으로 따져보면:
베타: $5.375 × 600 = $3,225/월
GA: $2.75 × 600 = $1,650/월
월 $1,575 절감 (약 49%)
절반 가까운 비용이 줄었다는 게 단순한 스펙 변화가 아닌 이유입니다. 2월 글을 보고 “너무 비싸다”고 판단했다면, 지금 요금표를 다시 확인해볼 시점입니다.
(계산 기준: claude.com/blog/1m-context-ga 공식 요금표 / 2026.03.13)
공식 발표문과 실제 사용 흐름을 같이 놓고 보니
이 부분이 솔직히 가장 흥미로웠습니다. Anthropic은 1M을 출시하면서 동시에 “컨텍스트는 유한한 자원으로 다뤄야 한다”는 공식 엔지니어링 가이드를 냈습니다. 1M을 팔면서 1M을 함부로 쓰지 말라는 내용을 같은 날 공개한 셈입니다. (출처: anthropic.com/engineering/effective-context-engineering-for-ai-agents)
Jon Bell(CPO, 익명 파트너사) 증언을 직접 인용하면: “1M 도입 후 컴팩션 이벤트가 15% 감소했다. 에이전트가 1페이지에서 읽은 내용을 수 시간 동안 잊지 않고 작업을 이어간다.” (출처: claude.com/blog/1m-context-ga, 2026.03.13) 컴팩션이 15% 줄었다는 건, 압축이 완전히 없어진 게 아니라 압축 빈도가 줄었다는 뜻입니다.
1M을 실제로 써야 할 때와 아닐 때
공식 가이드에서 도출한 기준입니다. 아래 경우에는 1M 풀 컨텍스트가 의미 있습니다:
- 대규모 법률 계약서 여러 버전을 단일 세션에서 교차 분석할 때
- 수백 개 소스 파일을 한 번에 로드해 크로스파일 의존성을 추적해야 할 때
- 장시간 에이전트 세션에서 중간 컴팩션 없이 전체 맥락 유지가 필요할 때
반면 이런 경우는 1M 풀 사용이 오히려 비효율적입니다:
- 반복적 단기 질의응답: 매 요청이 독립적이라 컨텍스트 누적이 필요 없는 경우
- 단순 코드 생성 작업: 50K~100K 컨텍스트로도 충분한 일반 작업
- 컨텍스트 로트 위험이 높은 단순 키워드 검색성 작업
Anthropic 엔지니어링팀의 핵심 원칙은 “원하는 결과가 나올 가능성을 최대화하는 가장 작은 고신호 토큰 집합을 찾아라”입니다. (출처: anthropic.com/engineering/effective-context-engineering-for-ai-agents) 1M이 생겼어도 이 원칙은 바뀌지 않았습니다.
Q&A
마치며
이번 변화에서 실질적으로 중요한 포인트는 둘입니다. 첫째, 2월 5일부터 3월 12일 사이에 “1M은 비싸다”고 판단하고 넘어간 팀이라면 지금 다시 계산해봐야 합니다. 500K 입력 기준 비용이 약 절반으로 줄었고, 프리미엄 요금 없이 전 구간 표준 단가가 적용됩니다. 둘째, 1M이 됐다고 컨텍스트 관리가 끝난 게 아닙니다. Anthropic 스스로 말하듯, 컨텍스트 로트는 창의 크기와 무관하게 발생합니다. 1M은 더 오래 버티는 도구일 뿐, 컨텍스트 엔지니어링의 원칙 자체는 그대로입니다.
개인적으로 이 부분이 좀 아쉬웠습니다. Anthropic이 1M GA를 발표할 때 “무한에 가까운 컨텍스트”처럼 홍보했지만, 엔지니어링 블로그에서는 “작은 고신호 토큰 집합이 핵심”이라는 정반대 방향을 권고합니다. 1M 자체는 분명 의미 있는 변화입니다. 그런데 그 1M을 제대로 쓰려면, 오히려 무엇을 넣지 않을지를 더 고민해야 합니다.
📚 본 포스팅 참고 자료
본 포스팅은 2026년 3월 25일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 요금 및 기능 변경 사항은 Anthropic 공식 채널을 통해 직접 확인하세요.











댓글 남기기