Claude API 가격, 싸진다는 말이 절반만 맞습니다

Published on

in

Claude API 가격, 싸진다는 말이 절반만 맞습니다

2026.03.22 기준
Claude 4 시리즈 기준
공식 문서 직접 확인

Claude API 가격, 싸진다는 말이 절반만 맞습니다

Opus 4.6이 출시되면서 Claude가 드디어 저렴해졌다는 말이 돌았습니다. 맞습니다. 그런데 그 말이 통하지 않는 상황이 딱 두 가지 있습니다. 1M 컨텍스트를 쓸 때, 그리고 Prompt Caching을 잘못 설계했을 때입니다. 공식 가격 문서와 2026년 1~3월 관측 데이터 69개를 교차해서 직접 계산했습니다.

66.7%
Opus 4.6 vs Opus 4 가격 절감
2배
200K 초과 시 입력 단가 상승
94.9%
Batch+Caching 최대 절감율

현재 Claude API 모델별 기본 단가 한눈에 보기

결론부터 말씀드리면 2026년 3월 기준 활성 모델은 총 8개입니다. Claude 3 계열은 3월 2일 Haiku를 끝으로 deprecated 처리됐고, 현재 가장 저렴한 진입점은 Haiku 4.5 ($1.00/$5.00)입니다.

Silicon Data의 2026년 1~3월 69개 관측 데이터를 보면, 각 모델-컨텍스트 쌍의 기본 단가는 한 번도 바뀌지 않았습니다. 요금이 내려간 게 아니라 더 저렴한 새 모델이 추가됐을 뿐입니다. 이 차이가 예산 예측에서 생각보다 크게 달라집니다. (출처: Silicon Data 2026년 3월 11일 관측)

모델 상태 컨텍스트 입력 (/1M) 출력 (/1M)
Haiku 4.5 활성 200K $1.00 $5.00
Sonnet 4 / 4.5 활성 200K $3.00 $15.00
Sonnet 4.6 활성 1M $3.00 $15.00
Opus 4.5 / 4.6 활성 1M $5.00 $25.00
Opus 4 / 4.1 레거시 200K $15.00 $75.00

(출처: Anthropic 공식 가격 페이지, Silicon Data 2026-03-10 관측)

▲ 목차로 돌아가기

Opus 4.6이 Opus 4보다 66.7% 저렴한 실제 계산

💡 가격표 숫자만 보면 Opus 4.6이 그냥 “신형”처럼 보이는데, 같은 모델 패밀리 내에서 이 정도 단가 차이가 나는 건 흔치 않습니다. 공식 발표문과 관측 데이터를 같이 놓고 보니 이런 차이가 보였습니다.

Opus 4.6의 입력 단가는 $5.00/1M 토큰입니다. Opus 4 / 4.1은 $15.00/1M입니다. 숫자 차이가 세 배, 즉 같은 워크로드를 Opus 4로 돌리면 Opus 4.6 대비 비용이 정확히 3배 나옵니다.

10M 입력 + 2M 출력 기준으로 직접 계산하면 이렇게 됩니다.

모델 10M 입력 2M 출력 합계
Opus 4 / 4.1 $150 $150 $300
Opus 4.5 / 4.6 $50 $50 $100

$300 → $100, 절감율 66.7%입니다. 직접 검증 가능한 계산식은 이렇습니다.

Opus 4 입력: 10 × $15 = $150 / Opus 4.6 입력: 10 × $5 = $50
Opus 4 출력: 2 × $75 = $150 / Opus 4.6 출력: 2 × $25 = $50
절감: ($300 – $100) ÷ $300 = 66.7% (출처: Anthropic 공식 가격 페이지, 2026.03.22 기준)

Opus 4.5와 4.6의 단가는 같습니다. 4.6은 성능이 올라가고 1M 컨텍스트가 추가됐는데 가격은 그대로입니다. Anthropic의 공식 발표문도 “Pricing remains the same at $5/$25 per million tokens”라고 명시합니다. (출처: Anthropic 공식 블로그 Introducing Claude Opus 4.6, 2026.02.05)

▲ 목차로 돌아가기

1M 컨텍스트, 공짜가 아닌 이유

💡 Sonnet 4.6과 Opus 4.6이 1M 컨텍스트를 지원한다고 해서 그걸 항상 기본 단가로 쓸 수 있는 건 아닙니다. 공식 문서에 조용히 박혀 있는 조건이 있습니다.

Sonnet 4.6과 Opus 4.6은 2026년 2월 18일, 2월 7일에 각각 1M 컨텍스트 지원을 추가했습니다. 그런데 한 번의 요청에서 입력 토큰이 200K를 넘는 순간 단가 자체가 달라집니다. 이건 월간 누적 사용량 기준이 아닙니다. 요청 한 건 단위로 판정됩니다.

모델 ≤200K 입력 >200K 입력 출력 변화
Sonnet 4.6 $3.00 $6.00 (+100%) $22.50 (+50%)
Opus 4.6 $5.00 $10.00 (+100%) $37.50 (+50%)

입력 200K 초과 시 입력 단가가 두 배로 뜁니다. 대용량 코드베이스나 긴 문서를 그대로 컨텍스트에 넣는 에이전트 워크로드에서 별 생각 없이 1M 모델을 선택하면 Batch 할인을 다 갖다 써도 비용이 예상보다 훨씬 높게 나올 수 있습니다. (출처: Anthropic 공식 API 가격 문서, 2026.03.11 확인)

실제로 Sonnet 4.6 기준 10M 입력 + 2M 출력 워크로드가 전부 200K를 넘는다고 가정하면, 표준 단가 $60 → 롱컨텍스트 단가 $105로 75% 추가 비용이 발생합니다. 이 부분이 기존 블로그 대부분에서 빠져 있습니다.

▲ 목차로 돌아가기

Batch API로 절반, Caching으로 또 절반 — 단 조건이 있습니다

Batch API는 입력·출력 모두 50% 할인이고, Prompt Caching과 롱컨텍스트 요금과 중첩해서 적용됩니다. Anthropic 공식 문서에 딱 이렇게 나옵니다. 이론적으로는 Batch + Caching 조합으로 최대 94.9%까지 절감 가능합니다. 실제로는 두 가지 조건을 갖춰야 가능합니다.

Batch API 시나리오 계산

적용 조건 입력 단가 출력 단가 10M+2M 합계
Sonnet 4.6 표준 $3.00 $15.00 $60.00
Sonnet 4.6 + Batch $1.50 $7.50 $30.00
Sonnet 4.6 롱컨텍스트 $6.00 $22.50 $105.00
롱컨텍스트 + Batch $3.00 $11.25 $52.50

(출처: Anthropic 공식 Batch API 및 롱컨텍스트 가격 정책, 2026.03.11 확인)

Prompt Caching, 설계를 잘못하면 오히려 비싸집니다

Prompt Caching의 핵심은 캐시 쓰기(write) 비용과 읽기(read) 비용이 완전히 다르다는 점입니다. 5분 TTL 캐시 쓰기는 기본 단가의 1.25배, 1시간 TTL은 2배입니다. 읽기는 기본 단가의 0.1배(90% 할인)입니다.

Sonnet 4.5 기준, 50K 프롬프트를 1,000번 반복하는 경우
방식 입력 비용 표준 대비 절감
캐싱 없이 매번 전송 $150.00 기준
5분 TTL 캐시 $15.17 89.9%
1시간 TTL 캐시 $15.29 89.8%
5분 TTL + Batch $7.59 94.9%

(출처: Silicon Data Anthropic 가격 분석 2026.03.11, Sonnet 4.5 공식 단가 기준 직접 산출)

그런데 실사용 Reddit 스레드를 보면 “캐싱이 오히려 더 비쌌다”는 경험이 나옵니다. 이유는 명확합니다. 5분 내 재사용 트래픽이 없으면 캐시 write 비용(1.25배)만 지불하고 정작 read 혜택을 못 봅니다. 캐시를 살리기 위해 keepalive 요청을 주기적으로 넣는 구조가 아니라면, 요청 빈도가 높은 반복 워크로드에서만 캐싱이 실효성이 있습니다.

Batch API의 트레이드오프는 응답 지연입니다. 실시간 사용자 응답이 필요한 서비스에는 쓸 수 없고, 오프라인 문서 처리·요약·분류 파이프라인에서만 의미가 있습니다. Fast Mode는 Batch와 중첩이 안 되고, 단가가 표준의 6배($30/$150)라 개인 프로젝트 규모에서는 쓸 이유가 거의 없습니다.

▲ 목차로 돌아가기

경쟁사 비교: Anthropic이 가장 싸지는 않습니다

💡 Opus가 저렴해진 건 맞지만, 표면 단가만 놓고 보면 OpenAI와 Google 모두 일부 포지션에서 Anthropic보다 싸게 나옵니다. 이 관계를 같은 기준으로 직접 나열해봤습니다.

Silicon Data가 2026년 3월 11일 공식 페이지 기준으로 정리한 크로스 프로바이더 비교입니다. 벤치마크 성능 정규화 없이 순수 목록 단가 기준이라는 점을 감안해야 합니다.

공급사 모델 입력 출력 10M+2M
OpenAI GPT-5 mini $0.25 $2.00 $6.50
Google Gemini 3.1 Flash-Lite $0.25 $1.50 $5.50
Anthropic Haiku 4.5 $1.00 $5.00 $20.00
OpenAI GPT-5.4 $2.50 $15.00 $55.00
Anthropic Sonnet 4.6 $3.00 $15.00 $60.00
Google Gemini 3.1 Pro $2.00 $12.00 $44.00
Anthropic Opus 4.6 $5.00 $25.00 $100.00

(출처: Silicon Data 크로스 프로바이더 비교, Anthropic·OpenAI·Google 공식 가격 페이지 기준 2026.03.11)

저가형 챗봇이나 단순 분류 파이프라인을 만든다면 Haiku 4.5($1.00)보다 GPT-5 mini($0.25)나 Gemini Flash-Lite($0.25)가 4배 싸게 나옵니다. 반면 프리미엄 티어에서는 Opus 4.6($5.00)이 GPT-5.4($2.50)보다 비쌉니다. 막연하게 “Claude가 싸졌다”는 말을 믿고 모델을 선택하기보다 자신의 워크로드 포지션을 먼저 판단해야 합니다.

▲ 목차로 돌아가기

웹 검색·코드 실행 도구 요금, 토큰 외 비용이 따로 붙습니다

토큰 비용만 계산하다가 청구서를 받고 당황하는 경우가 있습니다. 웹 검색, 코드 실행, 특정 도구 호출에는 토큰과 별개로 추가 요금이 붙기 때문입니다.

도구 요금 구조 주의 포인트
웹 검색 $10 / 1,000건 검색 생성 콘텐츠 토큰도 별도 과금
웹 fetch 무료 토큰만 과금됨
코드 실행 월 1,550시간 무료 → $0.05/시간 5분 최소 과금, 컨테이너 단위
Bash 도구 호출당 245 입력 토큰 추가 대량 호출 시 누적 주의
텍스트 에디터 도구 호출당 700 입력 토큰 추가 코딩 에이전트에서 빈번히 호출됨

(출처: Anthropic 공식 도구 가격 정책, 2026.03.11 확인)

웹 검색 1만 건이면 $100입니다. 에이전트가 매 응답마다 검색을 한다면 토큰 비용 못지않게 검색 비용이 쌓입니다. 코드 실행 컨테이너는 5분이 최소 과금 단위라 짧은 스크립트를 많이 돌리는 패턴에서는 생각보다 시간이 빠르게 소진됩니다.

▲ 목차로 돌아가기

실전 시나리오별 예상 월 비용 직접 계산

이론보다 실제 숫자가 더 와닿습니다. 3가지 대표 시나리오를 공식 단가 기준으로 직접 계산했습니다.

📌 시나리오 A: 챗봇 서비스 (월 10M 입력 + 2M 출력)
Haiku 4.5 표준: $20 / Batch 적용: $10
같은 Claude 계열에서 비용만 따진다면 Haiku 4.5가 유일한 선택
📌 시나리오 B: 코딩 에이전트 (월 50M 입력 + 10M 출력, 200K 미만 유지)
Sonnet 4.6 표준: 50 × $3 + 10 × $15 = $300
Sonnet 4.6 + Batch: $150
시스템 프롬프트 50K를 1,000회 캐싱 적용 시 추가 절감 약 $130 → $70~80 수준 예상(추정)
200K를 넘기지 않는 요청 설계가 전제
📌 시나리오 C: 장문 문서 분석 에이전트 (요청당 평균 300K 입력, 월 5만 건)
300K > 200K → 롱컨텍스트 요금 적용
Opus 4.6 기준: 50M(롱) × $10 = $500 + 출력 비용
Sonnet 4.6 기준: 50M(롱) × $6 = $300 + 출력 비용
이 경우 컨텍스트 압축(Compaction) 기능으로 200K 미만으로 줄이는 설계가 핵심

결론적으로 모델 선택보다 요청당 입력 토큰을 200K 미만으로 관리하는 설계가 가장 큰 비용 변수입니다. Anthropic이 API에 Context Compaction 기능을 추가한 이유도 여기에 있습니다.

▲ 목차로 돌아가기

자주 묻는 질문

Q. Claude Pro 구독($20/월)을 하면 API 비용이 포함되나요?
포함되지 않습니다. Pro, Max, Team, Enterprise 플랜은 claude.ai 앱 사용을 위한 시트 요금이고, API 사용은 별도로 Anthropic Console에서 크레딧을 충전해서 토큰 단위로 청구됩니다. 두 가지는 완전히 분리된 결제 체계입니다. (출처: Anthropic 공식 플랜 페이지, 2026.03.22 기준)
Q. Opus 4.6과 Sonnet 4.6 중 어떤 걸 써야 할까요?
같은 워크로드 10M+2M 기준으로 Opus 4.6은 $100, Sonnet 4.6은 $60입니다. Opus 4.6은 복잡한 에이전트 코딩, 다단계 추론, 대형 코드베이스 리뷰에서 확실한 품질 차이가 납니다. 단순 분류·요약·번역이라면 Sonnet 4.6 또는 Haiku 4.5로도 충분합니다. 먼저 Sonnet으로 품질을 측정한 뒤, 부족한 경우에만 Opus로 올리는 순서가 비용 대비 효율적입니다.
Q. Prompt Caching, 개인 프로젝트에 세팅할 가치가 있을까요?
같은 대형 프롬프트나 문서를 5분 내 반복 호출하는 패턴이면 확실히 의미 있습니다. 대화형 챗봇처럼 매 턴마다 메시지가 달라지는 구조에서는 효과가 제한적입니다. 개인 사이드 프로젝트 수준이라면 먼저 일반 호출로 비용을 측정하고, 반복 프롬프트 비율이 높다고 확인되면 그때 캐싱을 도입하는 게 현실적입니다.
Q. 1M 컨텍스트가 지원되는 모델에서 항상 롱컨텍스트 요금이 붙나요?
아닙니다. 롱컨텍스트 요금은 해당 요청의 입력 토큰이 200K를 초과할 때만 적용됩니다. Sonnet 4.6이나 Opus 4.6 모델을 쓰더라도 요청당 입력을 200K 이하로 관리하면 기본 단가($3.00, $5.00)가 그대로 적용됩니다. 핵심은 월 누적 토큰이 아니라 단건 요청 기준이라는 점입니다. (출처: Anthropic 공식 API 문서, 2026.03.11)
Q. Claude 3 계열 모델은 아직 사용할 수 있나요?
Claude 3 Haiku는 2026년 3월 2일 deprecated 처리됐습니다. Deprecated 상태에서는 API 호출이 당장 막히는 건 아닙니다만, Anthropic이 공식적으로 유지 보수를 중단한 상태입니다. Claude 3.5 Haiku와 3.7 Sonnet은 2026년 2월 19일 이후 관측 데이터에서 사라졌습니다. 신규 프로젝트는 Haiku 4.5 이상을 쓰는 게 안전합니다. (출처: Silicon Data 2026년 관측 기록)

마치며

솔직히 말하면, Opus 4.6 출시가 가격 면에서 꽤 의미 있는 변화이긴 합니다. Opus 4 기준으로 예산을 짜고 있던 팀이라면 같은 성능대에서 66.7% 절감이 가능하다는 건 무시하기 어렵습니다. 그런데 그 뒤에 붙어 있는 조건들, 즉 200K 초과 시 단가 2배, 캐싱 설계 실패 시 오히려 비용 증가, 웹 검색 도구의 별도 청구서, Fast Mode의 6배 단가 — 이것들을 함께 보지 않으면 청구서에서 당황할 수 있습니다.

가장 중요한 설계 원칙 하나만 꼽자면, 요청당 입력 토큰을 200K 미만으로 통제하는 것입니다. 모델 선택보다 이 통제가 실제 월 청구액에 미치는 영향이 훨씬 큽니다.

📎 본 포스팅 참고 자료
  1. Anthropic 공식 블로그 — Introducing Claude Opus 4.6 (2026.02.05)
  2. Anthropic 공식 가격 페이지 — claude.com/pricing
  3. Silicon Data — Anthropic Claude API Pricing 2026 (2026.03.11 기준 69회 관측)
  4. Anthropic 공식 API 문서 — Prompt Caching

※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문의 가격 수치는 2026.03.22 기준이며, Anthropic의 공식 가격 업데이트에 따라 달라질 수 있습니다. 투자·지출 결정 전 Anthropic 공식 페이지에서 최신 단가를 직접 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기