Claude API 요금, 구조대로 계산하면 4곳에서 틀립니다

Published on

in

Claude API 요금, 구조대로 계산하면 4곳에서 틀립니다

2026.03.30 기준 / Claude Sonnet 4.6·Opus 4.6

Claude API 요금, 구조대로 계산하면 4곳에서 틀립니다

“입력 $3·출력 $15″만 보고 계산했다가는 실제 청구서가 크게 달라집니다. 캐시 쓰기, Tool use 기본 토큰, Fast mode 제한, 장문 컨텍스트 구간 분기 — 네 곳에서 요금이 추가됩니다.

IT/AI
Anthropic API
토큰 과금

Sonnet 4.6 입력
$3 / MTok
캐시 쓰기 시 $3.75~$6
Batch 할인
50% OFF
Fast mode와 동시 적용 불가
Tool use 기본 추가
+346 토큰
요청마다 자동 부과

모델별 기본 요금 — 먼저 숫자를 정확히 보겠습니다

결론부터 말씀드리면, 지금 시점(2026.03.30)에서 Claude API는 세 개 모델이 현역입니다. Opus 4.6, Sonnet 4.6, Haiku 4.5. 아래 표는 Anthropic 공식 문서에서 직접 가져온 수치입니다.

모델 입력 (MTok) 출력 (MTok) 캐시 읽기 컨텍스트
Claude Opus 4.6 $5 $25 $0.50 1M tokens
Claude Sonnet 4.6 $3 $15 $0.30 1M tokens
Claude Haiku 4.5 $1 $5 $0.10 200k tokens

(출처: Anthropic 공식 API Pricing 문서, 2026.03 기준 — docs.anthropic.com/en/docs/about-claude/pricing)

여기까지는 다들 아는 내용입니다. 문제는 이 표만 보고 요금을 계산하면 실제 청구서와 달라진다는 점입니다. 이 표에는 캐시 쓰기 비용, Tool use 기본 토큰, Fast mode 제한, 장문 컨텍스트 구간 분기 — 이 네 가지가 빠져 있습니다.

Opus 4.6과 Sonnet 4.6은 둘 다 100만 토큰 컨텍스트를 추가 요금 없이 제공합니다. (출처: Anthropic 공식 문서, 2026.03) Sonnet 4.5와 Sonnet 4는 20만 토큰 초과 시 요금이 두 배로 뛰는데, 4.6은 그 구간 요금 분기가 없습니다. 자주 헷갈리는 지점입니다.

▲ 목차로 돌아가기

캐싱이 처음엔 더 비쌉니다 — 5분짜리 TTL의 함정

“캐싱 쓰면 90% 저렴해진다”는 말이 널리 퍼져 있는데, 그건 절반만 맞는 이야기입니다. 공식 문서를 그대로 옮기면 이렇습니다.

💡 공식 가격표와 실제 청구 흐름을 같이 놓고 보니 이런 순서가 보였습니다.

  • 5분 캐시 쓰기: 기본 입력 단가의 1.25배 (Sonnet 4.6 기준 $3 → $3.75/MTok)
  • 1시간 캐시 쓰기: 기본 입력 단가의 2배 (Sonnet 4.6 기준 $3 → $6/MTok)
  • 캐시 읽기(Hit): 기본 입력 단가의 0.1배 (Sonnet 4.6 기준 $0.30/MTok)

계산해보면, 5분 캐시는 처음 한 번 쓰기에서 25% 할증 부담이 발생합니다. 이 선등록 비용을 회수하려면 캐시 읽기가 최소 2회 이상 일어나야 합니다. 그 이전까지는 오히려 일반 입력보다 비쌉니다.

캐시 호출 횟수 5분 캐시 누적 비용 일반 입력 누적 비용 손익 분기
1회 쓰기 + 0회 읽기 $3.75 $3.00 ❌ 손해
1회 쓰기 + 1회 읽기 $4.05 $6.00 ✅ 이익
1회 쓰기 + 10회 읽기 $6.75 $33.00 ✅ 약 80% 절감

(Sonnet 4.6, 동일한 1MTok 시스템 프롬프트 기준 계산 / 출처: Anthropic Pricing — Prompt Caching)

1회 읽기가 생기면 손익 분기를 넘습니다. 캐싱은 같은 시스템 프롬프트를 반복 호출하는 서비스에선 강력한 도구지만, 단발성 요청이 많은 구조에서는 쓰기 비용만 추가로 나갑니다.

TTL이 5분이라는 점도 중요합니다. 대화 중간에 5분 이상 공백이 생기면 캐시가 사라지고, 다음 요청에서 쓰기 비용이 다시 부과됩니다. 자동화나 챗봇에서 사용자가 5분 이상 자리를 비운 경우가 대표적입니다. 사람 중심 대화 서비스에서 5분 TTL은 생각보다 자주 만료됩니다.

▲ 목차로 돌아가기

Tool use를 쓰면 346 토큰이 자동으로 붙습니다

Tool use를 API에서 활성화하면 시스템 프롬프트에 Anthropic이 자동으로 삽입하는 기본 토큰이 있습니다. 요청당 추가 비용이 발생하지만, 공식 문서를 보기 전까지는 아무도 알 수 없습니다.

💡 공식 문서 가격표에 따로 표기되어 있는데, 통합 요금 계산기에는 잘 안 나옵니다.

  • tool_choice: auto / none → 요청당 346 토큰 추가 (Opus 4.6·Sonnet 4.6·Haiku 4.5 동일)
  • tool_choice: any / tool → 요청당 313 토큰 추가

Sonnet 4.6 기준으로 계산하면, 346 토큰 = 약 $0.000001038입니다. 요청 한 번에는 무시할 수준이지만, 월 100만 건 요청하는 서비스라면 $1.04가 추가됩니다. 그보다 중요한 건 이 토큰이 Tool 정의 스키마(names, descriptions, schemas) 토큰과 별개로 쌓인다는 점입니다. Tool 정의가 길고 복잡할수록 입력 토큰이 크게 늘어납니다. 도구가 많은 에이전트를 설계할 때 입력 비용이 예상보다 크게 나오는 주요 이유 중 하나입니다.

또한 Web Search 도구를 사용하면 토큰 비용에 더해 검색 1회당 $0.01이 별도로 부과됩니다 (1,000회 = $10). 검색 결과 텍스트는 입력 토큰으로 다시 과금됩니다. Web Fetch 도구는 검색 추가 요금이 없고 토큰 비용만 적용됩니다. 두 도구를 혼동하면 비용 설계가 어긋납니다.

▲ 목차로 돌아가기

Batch와 Fast mode, 둘 다 쓰면 Fast mode는 무효입니다

Batch API는 비동기 처리를 대가로 입력·출력 토큰 모두 50% 할인을 제공합니다. Sonnet 4.6 기준으로 입력 $1.50/MTok, 출력 $7.50/MTok. 반면 Fast mode는 Opus 4.6 전용으로 표준 요금의 6배인 입력 $30/MTok, 출력 $150/MTok가 부과됩니다.

이 두 가지를 동시에 적용할 수 있을 것 같지만, 공식 문서에 딱 이렇게 나옵니다: “Fast mode is not available with the Batch API.” (출처: Anthropic API Pricing 공식 문서, 2026.03) Fast mode가 요구하는 즉각적 처리와 Batch API의 비동기 구조가 물리적으로 상충하기 때문입니다. Fast mode를 쓰면서 Batch 할인을 받을 방법은 없습니다.

⚠️ 비용 비교 — Opus 4.6, 동일 1MTok 입력 기준

  • 표준 API: 입력 $5 / 출력 $25
  • Batch API: 입력 $2.50 / 출력 $12.50 (50% 할인)
  • Fast mode: 입력 $30 / 출력 $150 (6배 할증)
  • Fast mode + Batch 동시 적용: 지원 안 됨

Fast mode는 Opus 4.6에서만 작동하고, Haiku나 Sonnet은 지원하지 않습니다. 응답 속도가 결정적으로 중요한 실시간 서비스가 아니라면, Fast mode 6배 할증을 감수할 이유는 거의 없습니다. Batch 처리가 가능한 구조로 설계하는 편이 비용 관리 측면에서 훨씬 유리합니다.

▲ 목차로 돌아가기

장문 컨텍스트 200k 구간 — Sonnet 4.5·4와 4.6이 다릅니다

이 부분은 같은 ‘Sonnet’이어도 버전에 따라 요금 체계가 완전히 달라집니다. 공식 문서를 직접 확인해야 하는 이유입니다.

모델 200k 이하 입력 200k 초과 입력 200k 초과 출력
Sonnet 4.6 $3/MTok $3/MTok (동일) $15/MTok (동일)
Sonnet 4.5 / 4 $3/MTok $6/MTok (2배) $22.50/MTok (1.5배)
Opus 4.6 $5/MTok $5/MTok (동일) $25/MTok (동일)

(출처: Anthropic Long Context Pricing 공식 문서, 2026.03 — docs.anthropic.com/en/docs/about-claude/pricing#long-context-pricing)

Sonnet 4.5·4에서 입력이 200k 토큰을 넘으면 해당 요청의 전체 입력 토큰이 $6/MTok으로 과금됩니다. 201,000번째 토큰부터만 비싸지는 게 아닙니다. 전체 입력이 프리미엄 요금으로 바뀝니다. 대형 문서나 코드베이스를 통째로 넣는 작업에서 요금이 예상보다 두 배로 나올 수 있는 구조입니다.

Sonnet 4.6과 Opus 4.6은 이 구간 분기가 없습니다. 동일한 토큰당 단가가 100만 토큰까지 유지됩니다. 장문 컨텍스트를 자주 쓴다면, Sonnet 4.5 대신 Sonnet 4.6으로 모델 버전을 올리는 것만으로 요금이 절반으로 줄 수 있습니다.

▲ 목차로 돌아가기

공식 발표 수치와 실제 청구서를 같이 놓고 보니 보이는 것

💡 Anthropic이 공개한 사용 통계를 보면 구독과 API 중 어느 쪽이 실제로 유리한지 거꾸로 계산이 됩니다.

Anthropic이 공식 비용 관리 문서에서 밝힌 수치에 따르면, Claude Code를 사용하는 평균 개발자의 하루 API 환산 토큰 소비는 약 $6 상당입니다. 월 환산 시 약 $180입니다. (출처: Anthropic Claude Code 비용 관리 공식 문서, 2026.03) 그런데 Pro 구독 월정액은 $20입니다. 같은 사용량을 API 종량제로 쓰면 9배 비싸다는 뜻입니다.

막상 해보면 다릅니다. Pro 구독은 사용량 한도가 있고, 한도를 넘으면 5시간 대기가 걸립니다. API 종량제는 한도 없이 과금되지만, 자동 충전을 켜두면 잠깐의 테스트에서도 수십 달러가 사라질 수 있습니다. 클리앙 커뮤니티에서 실제 사용자가 “30분 테스트에 $10 증발”을 경험한 사례가 공유된 것처럼, 종량제는 소비 제어 장치 없이 쓰면 위험합니다.

반대 케이스도 있습니다. 대량 Batch 처리 파이프라인을 운영하는 팀의 경우 API 종량제 + Batch 50% 할인이 구독보다 훨씬 유리합니다. 구독은 대화형 인터랙티브 사용, API는 자동화·파이프라인 사용이라는 구분이 요금 선택의 출발점입니다.

비교 항목 구독 Pro ($20) API 종량제
캐시 읽기 비용 무료 $0.30/MTok
사용 상한 한도 있음 (5시간 제한) 무제한
Batch 50% 할인 해당 없음 적용 가능
비용 예측성 고정 (예측 쉬움) 변동 (모니터링 필요)

구독에서 캐시 읽기가 무료라는 점은 공식 가격표에 명시되어 있지 않아서 모르고 넘어가기 쉽습니다. Reddit에서 “구독이 API보다 최대 36배 저렴하다”는 계산이 나온 배경도 이 캐시 읽기 무료 정책 때문입니다. 많은 반복 호출이 발생하는 대화형 서비스라면 구독이 압도적으로 유리합니다.

▲ 목차로 돌아가기

Q&A — 자주 헷갈리는 질문 5개

Q1. 토큰 1개는 몇 글자인가요?

영어 기준으로 약 4글자 또는 0.75 단어입니다. 한국어는 자음·모음 결합 구조 때문에 같은 의미의 영어 대비 토큰이 더 많이 발생합니다. 예를 들어 “안녕하세요”는 약 14토큰으로, 영어 “Hello”(약 2토큰)보다 7배 많습니다. 한국어 서비스를 만들 때 토큰 비용이 영어 서비스보다 크게 나오는 이유입니다.

Q2. Batch API는 언제 결과가 나오나요?

공식 문서에서 구체적인 처리 시간을 명시하지 않았습니다. “비동기(asynchronous)”로 처리된다고만 표기되어 있으며, 수분에서 수시간 소요될 수 있습니다. 실시간 응답이 필요 없는 대량 처리(문서 분류, 배치 번역, 자동 코드 리뷰 등)에 적합합니다.

Q3. AWS Bedrock과 Google Vertex AI로 사용하면 요금이 다른가요?

Claude 4.5 이상 모델은 글로벌 엔드포인트와 리전 엔드포인트가 나뉩니다. 리전 엔드포인트는 글로벌 대비 10% 추가 요금이 붙습니다. 데이터 거주 요건(data residency)이 없다면 글로벌 엔드포인트가 기본값으로 더 저렴합니다. Anthropic 직접 API는 기본적으로 글로벌이며, 미국 전용 추론이 필요한 경우 1.1배 가격이 적용됩니다.

Q4. Extended Thinking 사용 시 토큰 비용은 어떻게 되나요?

Extended Thinking에서 생성되는 사고(thinking) 토큰은 출력 토큰으로 과금됩니다. Opus 4.6의 기본 사고 토큰 예산은 31,999 토큰이며, 최대 비용은 요청당 약 $0.80 (출력 $25/MTok 기준)입니다. 단순한 작업에도 확장 사고가 기본 활성화되어 있는 경우 불필요한 비용이 발생할 수 있으므로, 설정에서 사고 예산을 줄이거나 비활성화하는 것이 좋습니다.

Q5. Code Execution 도구는 추가 비용이 있나요?

Web Search 또는 Web Fetch 도구와 함께 사용하면 Code Execution은 무료입니다. 단독으로 사용할 경우 실행 시간 기준으로 과금되며, 조직당 매월 1,550시간이 무료로 제공됩니다. 초과분은 컨테이너당 시간당 $0.05가 부과됩니다. 최소 과금 단위는 5분입니다. (출처: Anthropic API Pricing 공식 문서, 2026.03)

▲ 목차로 돌아가기

마치며

Claude API 요금은 모델별 단가 표 하나로 설명되지 않습니다. 캐싱 쓰기 할증, Tool use 기본 토큰 추가, Fast mode와 Batch의 상호 배제, 모델 버전별 장문 컨텍스트 구간 분기 — 이 네 가지를 놓치면 실제 청구서가 예상과 크게 달라집니다.

가장 실용적인 정리를 해드리면, 반복 호출이 많은 대화형 서비스는 구독 플랜이 유리하고, 자동화·파이프라인은 API 종량제 + Batch 조합이 유리합니다. 장문 컨텍스트를 다룬다면 Sonnet 4.6 이상으로 모델을 올리는 것만으로도 비용 구조가 달라집니다.

Anthropic은 정책 변경 시 공식 문서를 업데이트하지만, 변경 타이밍을 별도로 공지하지 않는 경우도 있습니다. 요금이 중요한 서비스를 운영하고 있다면 공식 가격 문서를 주기적으로 직접 확인하는 것이 가장 확실합니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Anthropic 공식 API Pricing 문서 (2026.03)
  2. Anthropic Models Overview 공식 문서 (2026.03)
  3. Anthropic API 공식 소개 페이지 (2026.03)
  4. Claude Code 요금 가이드 2026 (laozhang.ai, 2026.03)

본 포스팅은 2026년 3월 30일 기준 Anthropic 공식 문서를 참고해 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있으며, 최신 정보는 Anthropic 공식 문서에서 직접 확인하시기 바랍니다. 본 내용은 정보 제공 목적이며, 금전적 의사결정 시 공식 자료를 기준으로 삼아 주세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기