Claude Code 1M 컨텍스트, 요금이 반으로 줄었습니다

Published on

in

Claude Code 1M 컨텍스트, 요금이 반으로 줄었습니다

2026.03.13 GA 기준
Claude Code / Opus 4.6 · Sonnet 4.6

Claude Code 1M 컨텍스트,
요금이 반으로 줄었습니다

2026년 2월 5일 Opus 4.6 출시 당시, 200K 토큰을 넘기면 입력 요금이 2배로 뛰었습니다. 3월 13일 정식 출시(GA)로 그 프리미엄 요금이 완전히 사라졌습니다. Claude Code Max·Team·Enterprise 플랜에서는 Opus 4.6이 자동으로 1M 컨텍스트를 쓰고, 추가 요금도 없습니다.

78.3%
MRCR v2 (1M) 정확도
15%
컴팩션 이벤트 감소
600개
이미지/PDF 페이지 한도

베타 때와 지금, 요금이 얼마나 달라졌나

결론부터 말씀드리면, 1M 컨텍스트 요금 구조가 약 37일 사이에 완전히 바뀌었습니다. 2월 5일 Opus 4.6이 처음 출시됐을 때, 200K 토큰을 초과하는 입력에는 입력 $10/M, 출력 $37.50/M이라는 프리미엄 요금이 붙었습니다. 즉, 표준 요금($5/$25)의 각각 2배, 1.5배였죠. (출처: Anthropic 공식 출시 발표, 2026.02.05)

구분 베타 (2.5~3.12) GA 이후 (3.13~)
Opus 4.6 입력 $10.00/M (200K 초과 시) $5.00/M (전 구간 동일)
Opus 4.6 출력 $37.50/M (200K 초과 시) $25.00/M (전 구간 동일)
Sonnet 4.6 입력 $6.00/M (200K 초과 시) $3.00/M (전 구간 동일)
Sonnet 4.6 출력 $22.50/M (200K 초과 시) $15.00/M (전 구간 동일)

(출처: Anthropic 공식 발표 2026.02.05 / claude.com/blog/1m-context-ga 2026.03.13)

2월 블로그 글들이 “200K 초과하면 요금 2배”라고 썼던 건 당시 사실이었습니다. 지금은 틀린 정보입니다. GA 발표문에는 “900K 토큰 요청도 9K 요청과 동일한 단가로 청구된다”고 명시돼 있습니다.

▲ 목차로 돌아가기

1M 컨텍스트, 실제로 어떤 플랜에서 쓸 수 있나

Claude Code에서 1M 컨텍스트 자동 적용은 Max, Team, Enterprise 플랜의 Opus 4.6 세션에만 해당됩니다. 이 플랜에서는 200K를 넘어도 추가 사용(extra usage)으로 차감되지 않습니다. (출처: claude.com/blog/1m-context-ga, 2026.03.13)

API를 직접 쓰는 경우라면 별도 설정 없이 바로 됩니다. 이전에 200K 초과 요청에 `anthropic-beta: max-tokens-3-5-sonnet-20241022` 같은 베타 헤더를 붙였다면, 3월 13일 이후로는 해당 헤더가 있어도 무시됩니다. 코드 변경 없이 자동 적용됩니다.

미디어 한도도 바뀌었습니다. 기존 1회 요청당 이미지 또는 PDF 100페이지까지였던 게, GA 이후 600개/페이지로 6배 늘었습니다. AWS Bedrock, Google Cloud Vertex AI, Microsoft Foundry를 통해 쓰는 경우에도 동일하게 적용됩니다.

💡 공식 발표문과 실제 요금표를 같이 놓고 보니, Pro 플랜 단독 사용자는 1M 자동 적용 대상이 아닙니다. API 요금제로 직접 호출하거나, Max 이상 플랜이어야 Claude Code에서 자동으로 1M이 켜집니다.

Sonnet 4.5와 Sonnet 4 모델은 200K 초과 요청에 여전히 context-1m-2025-08-07 베타 헤더가 필요하며, 사용 티어 4 이상 계정에서만 활성화됩니다. (출처: platform.claude.com/docs/en/build-with-claude/context-windows)

▲ 목차로 돌아가기

크다고 무조건 좋은 게 아닌 이유가 있습니다

Anthropic 공식 문서에는 “more context isn’t automatically better”라는 문장이 그대로 나옵니다. (출처: platform.claude.com/docs/en/build-with-claude/context-windows) 1M을 쓸 수 있다고 해서 무조건 1M을 채우는 게 최선이 아닌 이유입니다.

Anthropic이 직접 정의한 개념인 컨텍스트 로트(context rot)를 알아야 합니다. 컨텍스트 길이가 늘어날수록 모델의 정보 회상 정확도가 서서히 떨어지는 현상입니다. 트랜스포머 아키텍처의 어텐션 메커니즘은 n개 토큰 간 n²개의 쌍(pair) 관계를 계산하는데, 토큰이 많아질수록 각각의 쌍에 할당되는 어텐션 예산이 희석됩니다. (출처: anthropic.com/engineering/effective-context-engineering-for-ai-agents)

Opus 4.6의 MRCR v2 1M 구간 점수는 78.3%입니다. 반면 Sonnet 4.5는 동일 벤치마크에서 18.5%를 기록했습니다. (출처: Anthropic 공식 발표, 2026.02.05) 같은 1M이라도 모델에 따라 실효 성능 차이가 4배 이상 납니다.

💡 “1M 컨텍스트면 압축 없이 다 담으면 되겠다”는 생각과, 실제 Anthropic 엔지니어링팀의 권고 사이에 간극이 있습니다. 공식 가이드는 “고신호 토큰의 가장 작은 집합을 찾아라”가 원칙입니다.

실제 사용 후기에서도 이 부분이 나옵니다. LinkedIn에서 Brad Feld는 “컨텍스트 로트와 컨텍스트 드리프트는 1M이 돼도 여전히 싸워야 할 문제”라고 적었고(출처: LinkedIn, 2026.03.13), morphllm.com은 “1M 컨텍스트 윈도우를 가진 모델도 50K 토큰에서 컨텍스트 로트가 나타난다”고 측정했습니다. 모델의 최대 창이 커졌다는 것과, 그 창 전체를 효율적으로 쓸 수 있다는 것은 다른 이야기입니다.

▲ 목차로 돌아가기

직접 따라할 수 있는 비용 계산식

API로 Opus 4.6을 사용한다고 가정하고, 대규모 코드베이스 분석 시나리오를 숫자로 뽑아봤습니다.

📌 시나리오: 500K 입력 토큰 + 10K 출력 토큰 1회 요청

[베타 기준 (2026.02.05~03.12)]
입력: 500K × $10.00 / 1,000K = $5.00
출력: 10K × $37.50 / 1,000K = $0.375
합계: $5.375

[GA 기준 (2026.03.13~)]
입력: 500K × $5.00 / 1,000K = $2.50
출력: 10K × $25.00 / 1,000K = $0.25
합계: $2.75

→ 동일 작업 비용이 48.8% 감소합니다.

하루 이런 요청을 20회 반복하는 팀 기준으로 따져보면:

일 20회 × 30일 = 600회/월
베타: $5.375 × 600 = $3,225/월
GA: $2.75 × 600 = $1,650/월
월 $1,575 절감 (약 49%)

절반 가까운 비용이 줄었다는 게 단순한 스펙 변화가 아닌 이유입니다. 2월 글을 보고 “너무 비싸다”고 판단했다면, 지금 요금표를 다시 확인해볼 시점입니다.

(계산 기준: claude.com/blog/1m-context-ga 공식 요금표 / 2026.03.13)

▲ 목차로 돌아가기

공식 발표문과 실제 사용 흐름을 같이 놓고 보니

이 부분이 솔직히 가장 흥미로웠습니다. Anthropic은 1M을 출시하면서 동시에 “컨텍스트는 유한한 자원으로 다뤄야 한다”는 공식 엔지니어링 가이드를 냈습니다. 1M을 팔면서 1M을 함부로 쓰지 말라는 내용을 같은 날 공개한 셈입니다. (출처: anthropic.com/engineering/effective-context-engineering-for-ai-agents)

💡 공식 발표문과 엔지니어링 블로그를 나란히 놓고 보면, Anthropic이 말하는 1M의 의미가 보입니다. “압축 없이 다 넣어도 된다”가 아니라, “압축이 필요한 시점을 뒤로 미룰 수 있다”입니다.

Jon Bell(CPO, 익명 파트너사) 증언을 직접 인용하면: “1M 도입 후 컴팩션 이벤트가 15% 감소했다. 에이전트가 1페이지에서 읽은 내용을 수 시간 동안 잊지 않고 작업을 이어간다.” (출처: claude.com/blog/1m-context-ga, 2026.03.13) 컴팩션이 15% 줄었다는 건, 압축이 완전히 없어진 게 아니라 압축 빈도가 줄었다는 뜻입니다.

1M을 실제로 써야 할 때와 아닐 때

공식 가이드에서 도출한 기준입니다. 아래 경우에는 1M 풀 컨텍스트가 의미 있습니다:

  • 대규모 법률 계약서 여러 버전을 단일 세션에서 교차 분석할 때
  • 수백 개 소스 파일을 한 번에 로드해 크로스파일 의존성을 추적해야 할 때
  • 장시간 에이전트 세션에서 중간 컴팩션 없이 전체 맥락 유지가 필요할 때

반면 이런 경우는 1M 풀 사용이 오히려 비효율적입니다:

  • 반복적 단기 질의응답: 매 요청이 독립적이라 컨텍스트 누적이 필요 없는 경우
  • 단순 코드 생성 작업: 50K~100K 컨텍스트로도 충분한 일반 작업
  • 컨텍스트 로트 위험이 높은 단순 키워드 검색성 작업

Anthropic 엔지니어링팀의 핵심 원칙은 “원하는 결과가 나올 가능성을 최대화하는 가장 작은 고신호 토큰 집합을 찾아라”입니다. (출처: anthropic.com/engineering/effective-context-engineering-for-ai-agents) 1M이 생겼어도 이 원칙은 바뀌지 않았습니다.

▲ 목차로 돌아가기

Q&A

Q1. Pro 플랜 사용자도 Claude Code에서 1M 컨텍스트를 쓸 수 있나요?
Claude Code에서 Opus 4.6의 1M 컨텍스트 자동 적용은 Max, Team, Enterprise 플랜만 해당됩니다. Pro 플랜은 Claude.ai 인터페이스에서는 사용할 수 있지만, Claude Code 내 자동 적용 대상이 아닙니다. API를 직접 호출하는 경우에는 플랜 무관하게 표준 요금으로 1M 요청이 가능합니다. (출처: claude.com/blog/1m-context-ga, 2026.03.13)
Q2. 베타 헤더를 기존 코드에서 제거해야 하나요?
제거하지 않아도 됩니다. 3월 13일 GA 이후, 기존 베타 헤더가 포함돼 있어도 자동으로 무시됩니다. 코드 변경 없이 그대로 사용 가능합니다. 다만 명확성을 위해 차후 배포 시 헤더를 정리하는 것이 권장됩니다. (출처: platform.claude.com/docs/en/build-with-claude/context-windows)
Q3. Sonnet 4.6도 1M 컨텍스트가 표준 요금으로 가능한가요?
맞습니다. GA 발표에는 Opus 4.6과 Sonnet 4.6 모두 포함돼 있으며, Sonnet 4.6 기준 입력 $3/M, 출력 $15/M의 표준 요금이 전 구간에 동일하게 적용됩니다. 다만 장문 컨텍스트 정확도(MRCR v2 1M 기준)는 Opus 4.6이 78.3%로 더 높습니다. 비용 대비 정확도를 따져서 선택해야 합니다.
Q4. 컨텍스트 로트를 피하는 실용적 방법이 있나요?
Anthropic 공식 엔지니어링 블로그에서 세 가지를 권장합니다. 첫째, 컴팩션(compaction): 세션이 일정 임계치에 도달하면 자동으로 핵심 내용을 요약해 새 컨텍스트로 시작합니다. 둘째, 구조적 노트 테이킹: 에이전트가 NOTES.md 같은 외부 파일에 진행 상황을 주기적으로 기록하고, 다음 세션에 불러오는 방식입니다. 셋째, 서브에이전트 아키텍처: 독립된 작업은 별도 컨텍스트 창을 가진 서브에이전트에 위임하고 결과 요약만 메인 에이전트에 전달합니다. (출처: anthropic.com/engineering/effective-context-engineering-for-ai-agents)
Q5. AWS Bedrock이나 Google Vertex AI에서도 동일한 요금인가요?
1M 컨텍스트 자체는 AWS Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서도 동일하게 사용 가능합니다. 단, 각 클라우드 플랫폼의 실제 청구 요금은 해당 플랫폼의 가격 정책에 따라 다를 수 있습니다. Anthropic 직접 API 기준 요금($5/$25 for Opus 4.6)과 동일하지 않을 수 있으므로, 각 클라우드 콘솔에서 별도 확인이 필요합니다. (출처: claude.com/blog/1m-context-ga, 2026.03.13)

▲ 목차로 돌아가기

마치며

이번 변화에서 실질적으로 중요한 포인트는 둘입니다. 첫째, 2월 5일부터 3월 12일 사이에 “1M은 비싸다”고 판단하고 넘어간 팀이라면 지금 다시 계산해봐야 합니다. 500K 입력 기준 비용이 약 절반으로 줄었고, 프리미엄 요금 없이 전 구간 표준 단가가 적용됩니다. 둘째, 1M이 됐다고 컨텍스트 관리가 끝난 게 아닙니다. Anthropic 스스로 말하듯, 컨텍스트 로트는 창의 크기와 무관하게 발생합니다. 1M은 더 오래 버티는 도구일 뿐, 컨텍스트 엔지니어링의 원칙 자체는 그대로입니다.

개인적으로 이 부분이 좀 아쉬웠습니다. Anthropic이 1M GA를 발표할 때 “무한에 가까운 컨텍스트”처럼 홍보했지만, 엔지니어링 블로그에서는 “작은 고신호 토큰 집합이 핵심”이라는 정반대 방향을 권고합니다. 1M 자체는 분명 의미 있는 변화입니다. 그런데 그 1M을 제대로 쓰려면, 오히려 무엇을 넣지 않을지를 더 고민해야 합니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

  1. 1M context is now generally available — Anthropic (2026.03.13)
  2. Introducing Claude Opus 4.6 — Anthropic (2026.02.05)
  3. Effective context engineering for AI agents — Anthropic Engineering Blog
  4. Context Windows — Claude Developer Platform 공식 문서
  5. Pricing — Claude Developer Platform 공식 요금표

본 포스팅은 2026년 3월 25일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 요금 및 기능 변경 사항은 Anthropic 공식 채널을 통해 직접 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기