Claude Batch API, 싸다고요? 이 조건 먼저 보세요

Published on

in

Claude Batch API, 싸다고요? 이 조건 먼저 보세요

2026.03.21 기준
Claude API 최신

Claude Batch API, 싸다고요?
이 조건 먼저 보세요

결론부터 말씀드리면, Batch API + Prompt Caching을 병행하면 입력 토큰 비용이 표준가 대비 95%까지 낮아집니다. 그런데 이게 가능하다는 걸 모르는 분이 너무 많아요. 반대로, “그냥 Batch API만 쓰면 되겠다”고 생각했다가 실제 운영에서 막히는 조건도 있습니다. 공식 문서와 실사용 데이터를 직접 뒤져봤습니다.

50%
Batch API 기본 할인
95%
Batch + 캐싱 병행 시
24h
최대 처리 보장 시간

Claude Batch API가 뭔지 딱 한 줄로

Claude Batch API(공식 명칭: Message Batches API)는 실시간 응답이 필요 없는 요청을 하나의 묶음으로 보내는 방식입니다. 대신 24시간 이내 처리를 보장하는 조건으로 모든 토큰 카테고리에 일괄 50% 할인을 적용해 줍니다. 이 원리는 간단합니다. Anthropic 입장에서는 여유 GPU 사이클에 배치 작업을 끼워 넣기 때문에 인프라 가동률이 높아지고, 그 비용 효율을 개발자에게 돌려주는 구조입니다.

배치 하나에 최대 10,000건의 요청을 담거나 총 32MB 용량을 넘기지 않는 범위에서 사용할 수 있습니다. 처리 결과는 배치 내 모든 요청이 완료된 시점에 한 번에 내려받을 수 있고, 결과 URL을 통해 최대 29일 동안 접근 가능합니다. (출처: Anthropic Message Batches API 공식 문서, docs.anthropic.com)

한 가지 중요한 전제가 있어요. Batch API는 비동기 처리입니다. 요청을 보내고 나서 결과를 기다리는 것이 아니라, 나중에 결과를 폴링해서 가져와야 하는 구조입니다. 실시간 챗봇이나 사용자가 화면 앞에서 기다리는 UI에는 쓸 수 없습니다.

▲ 목차로 돌아가기

모델별 가격표, 직접 비교해봤습니다

2026년 3월 기준 Claude 모델별 표준가와 Batch API 적용가를 정리했습니다. 수치는 Anthropic 공식 가격 페이지(anthropic.com/pricing)와 제3자 검증 자료(devtk.ai, 2026.02.23)를 기준으로 합니다.

모델 표준 Input
/1M 토큰
표준 Output
/1M 토큰
Batch Input
(50% 할인)
Batch Output
(50% 할인)
Opus 4.6 $5.00 $25.00 $2.50 $12.50
Sonnet 4.5 $3.00 $15.00 $1.50 $7.50
Haiku 4.5 $1.00 $5.00 $0.40 $2.00

출처: Anthropic 공식 가격 페이지(anthropic.com/pricing) / devtk.ai 검증(2026.02.23). 표 안 수치는 USD 기준이며, 세금·지역 요금 별도입니다.

▲ 목차로 돌아가기

Batch + 캐싱 병행이 가능한 이유, 계산해봤습니다

💡 공식 발표문과 가격 구조를 함께 놓고 계산해보니, Batch API와 Prompt Caching을 동시에 쓰면 두 할인이 곱해져서 적용된다는 게 보였습니다.

Anthropic은 공식적으로 Batch API 할인과 Prompt Caching 할인을 중복 적용할 수 있다고 밝히고 있습니다. 두 할인은 독립적으로 작동하고 곱해서 계산됩니다. (출처: aifreeapi.com, Claude Opus 4.6 Pricing 가이드, 2026.02.08 — Anthropic 공식 문서 기반 검증)

📊 Sonnet 4.5 기준, 3,000토큰 시스템 프롬프트 / 하루 10,000건 처리 시나리오

캐싱 없이 — 표준가 적용

3,000토큰 × 10,000건 × 30일 = 900,000,000 입력 토큰

900M × $3.00/M = $2,700/월 (시스템 프롬프트 부분만)

Prompt Caching만 적용

첫 번째 캐시 쓰기: $3.75/M × 3,000토큰 × 30일 ≈ $0.34

이후 캐시 읽기: $0.30/M × 3,000토큰 × (10,000건 − 1) × 30일 ≈ $270/월

합계 ≈ $270/월 — 약 90% 절감

Batch API + Prompt Caching 동시 적용

캐시 읽기 단가: $0.30/M × 50%(Batch 할인) = $0.15/M

900M 입력 토큰(캐시 히트 기준) × $0.15/M ≈ $135/월

$2,700 → $135 — 95% 절감

월 $2,565가 그냥 사라지는 구조입니다. 물론 이 수치는 캐시 히트율이 이상적인 경우를 가정한 것이지만, 대량 배치 작업에서 동일한 시스템 프롬프트를 쓴다면 실제로 이 수준에 가까운 절감이 납니다.

▲ 목차로 돌아가기

싸게 쓰려다 막히는 딱 두 가지 조건

💡 여러 블로그가 “Batch API = 50% 절감”만 이야기할 때, 실제 운영에서 문제가 되는 결과 수령 구조와 한도 초과 리스크는 공식 문서를 직접 봐야 보입니다.

① 결과는 전부 완료되기 전까지 한 건도 못 가져옵니다

Batch API의 가장 중요한 제약입니다. 배치 내 10,000건 중 9,999건이 완료돼도 나머지 1건이 처리 중이라면 결과를 전혀 내려받을 수 없습니다. 공식 문서에는 “Results are only available once all requests in the batch are processed”라고 명시되어 있습니다. (출처: Anthropic Message Batches API 공식 문서, docs.anthropic.com)

이게 무슨 의미냐면, 9,999건의 결과를 빠르게 활용해야 하는 파이프라인에서는 Batch API가 오히려 발목을 잡을 수 있다는 뜻입니다. 배치를 잘게 쪼개서 여러 번 나눠 보내는 방식으로 우회할 수 있지만, 그러면 관리 복잡도가 올라갑니다.

② Workspace 지출 한도를 초과하면 배치 전체가 날아갑니다

대량 배치를 동시에 여러 개 돌릴 경우, 예상보다 빠르게 Workspace에 설정된 지출 한도(spend limit)를 넘길 수 있습니다. 이 경우 처리 중인 배치가 중단됩니다. 공식 문서에서 “High throughput and concurrent processing may result in exceeding the configured spend limit of your Workspace”라고 직접 경고하고 있습니다. (출처: Anthropic Message Batches API 공식 문서)

실운영 전에 Anthropic Console에서 Workspace별 지출 한도를 확인하고, 배치 규모에 맞게 미리 상향해두는 것이 필수입니다.

▲ 목차로 돌아가기

Fast Mode와 Batch API를 동시에 못 쓰는 이유

💡 “싸게 빠르게”라는 조합이 불가능한 건데, 이 제약을 모르고 Fast Mode와 Batch API를 함께 설계했다가 나중에 아키텍처를 갈아엎는 사례가 실제로 나오고 있습니다.

Claude Opus 4.6에는 Fast Mode라는 기능이 있습니다. 표준가 대비 6배 비싼 $30/M(Input), $150/M(Output)을 내는 조건으로 응답 지연시간을 대폭 줄여주는 옵션입니다. 레이턴시가 중요한 서비스라면 고려해볼 만한 기능이죠.

그런데 Fast Mode는 Batch API와 병행이 안 됩니다. 빠른 처리(Fast Mode)와 저렴한 처리(Batch API)는 인프라 자원 배분 방식이 정반대라서 동시에 적용할 수 없는 구조입니다. (출처: aifreeapi.com, Claude Opus 4.6 Pricing 가이드, 2026.02.08)

반면 Fast Mode + Prompt Caching 조합은 됩니다. 이 경우 캐시 읽기 단가가 $0.50/M으로 낮아지면서 입력 비용의 상당 부분을 줄일 수 있습니다. 출력은 $150/M이라는 높은 단가가 그대로 유지되니, 출력 토큰을 최소화하는 프롬프트 설계가 병행되어야 Fast Mode의 가성비가 올라갑니다.

Opus 4.6 기능 조합 가능 여부 (2026.03 기준)

조합 가능 여부 입력 절감
Batch API 단독 50%
Prompt Caching 단독 최대 90%
Batch + Caching 병행 최대 95%
Fast Mode + Caching 병행 입력만 90%
Fast Mode + Batch API ❌ 불가

▲ 목차로 돌아가기

처리 시간 “최대 24시간”의 실제 의미

공식 문서에는 “최대 24시간”이라고 나오고 일반적으로는 더 빠르게 처리된다고 설명합니다. 그런데 실사용에서는 이 시간이 불확실합니다. Reddit의 한 개발자(u/knavishly_vibrant38)가 2026년 1월 24일 올린 게시물에 따르면, 기존에 2분이면 완료되던 배치 작업이 8시간 이상 걸리거나 아예 완료되지 않는 사례가 발생했습니다. 댓글에서 다른 개발자(u/cfdude)는 “처리 시간은 서버 부하에 따라 달라지며, 배치 작업이 낮은 우선순위 GPU 사이클에 배정되는 원리상 이는 예상된 범위”라고 설명했습니다. (출처: r/ClaudeAI, 2026.01.24)

다시 말해, Batch API는 “일정 시간 내에 처리됩니다”가 아니라 “언제 처리될지 알 수 없지만 최대 24시간을 넘기지는 않습니다”에 더 가까운 구조입니다. 오후에 배치를 돌려서 다음 날 아침에 결과를 쓰겠다는 계획은 괜찮지만, “4시간 후에 결과가 필요하다”는 일정은 맞추기 어려울 수 있습니다.

⚠️ 처리 시간이 24시간을 초과하면 해당 요청은 만료(expire)되며, 결과를 받을 수 없습니다. 이 경우 재요청이 필요하고 비용도 다시 발생합니다.

Batch API는 “저렴하지만 느리다”는 트레이드오프를 정확히 이해하고 써야 합니다. 서버 부하가 높은 시간대에 대량 배치를 돌리면 처리 시간이 예상보다 길어질 수 있습니다. 처리 시간이 중요하다면 배치를 분산해서 보내는 방식이 안전합니다.

▲ 목차로 돌아가기

Q&A

Q. Batch API는 Claude 4.6 모델에도 쓸 수 있나요?
네, Opus 4.6, Sonnet 4.5, Haiku 4.5 등 현재 지원 중인 Claude 모델 전반에 Batch API를 적용할 수 있습니다. Batch API로 보낼 수 있는 요청 유형도 표준 Messages API와 동일해서 비전, 툴 사용, 멀티턴 대화 등 대부분의 요청을 배치로 처리할 수 있습니다.
Q. Prompt Caching의 캐시 유효 시간은 얼마나 되나요?
기본(5분 캐시)과 장기(1시간 캐시) 두 가지 옵션이 있습니다. 기본 캐시 쓰기는 표준 입력가의 125%로 과금되고, 1시간 옵션은 200%입니다. 캐시 읽기(히트)는 두 경우 모두 표준 입력가의 10%만 과금됩니다. TTL(캐시 유효 시간) 내에 같은 캐시 블록을 참조하는 요청이 얼마나 자주 오느냐에 따라 실제 절감 폭이 달라집니다.
Q. Batch API를 쓰면 스트리밍 응답이 안 되나요?
맞습니다. Batch API는 비동기 처리 방식이기 때문에 스트리밍 응답을 지원하지 않습니다. 응답이 생성되는 과정을 실시간으로 보여주는 채팅 UI나 실시간 파이프라인에는 쓸 수 없고, 반드시 배치 처리가 완전히 끝난 뒤 결과를 한 번에 가져오는 방식으로만 사용해야 합니다.
Q. AWS Bedrock에서 Claude Batch API를 쓰면 가격이 다른가요?
AWS Bedrock이나 Google Cloud Vertex AI를 통해 Claude를 사용할 경우 Anthropic 직접 API와 가격 구조가 다를 수 있습니다. Anthropic 공식 가격 정책이 그대로 적용되지 않는 경우가 있으니, 대량 처리를 계획하고 있다면 직접 Anthropic API를 쓰는 것이 비용 최적화에 유리한 경우가 많습니다.
Q. Batch API 결과는 언제까지 보관되나요?
배치 결과는 생성 후 29일 동안 내려받을 수 있습니다. 29일이 지나면 결과 데이터는 더 이상 다운로드할 수 없고, 배치 자체의 메타데이터(상태, 요청 수 등)만 조회 가능합니다. 처리가 완료된 즉시 결과를 저장해두는 것이 좋습니다.

▲ 목차로 돌아가기

마치며

Claude Batch API는 분명히 강력한 비용 절감 도구입니다. 단독으로 쓰면 50%, Prompt Caching과 같이 쓰면 최대 95%까지 입력 비용을 낮출 수 있고, 이 두 가지 할인이 중복 적용된다는 사실은 공식 문서에도 명시되어 있습니다.

그런데 막상 써보면 다른 지점에서 예상 외의 상황이 생깁니다. 결과가 전부 완료되기 전까지 부분 조회가 안 된다는 점, Fast Mode와 병행이 불가하다는 점, 처리 시간이 서버 부하에 따라 크게 달라질 수 있다는 점. 이게 설계 단계에서 빠져 있으면 나중에 아키텍처를 다시 짜야 하는 상황이 생깁니다.

결론은 이렇습니다. 비실시간 대량 처리 파이프라인이라면 Batch API + Prompt Caching 조합은 거의 최선에 가깝습니다. 단, 처리 완료 시점이 중요하거나 결과를 부분적으로 빠르게 소비해야 하는 구조라면 표준 API가 더 맞습니다.

📚 본 포스팅 참고 자료

  1. Anthropic Message Batches API 공식 문서 — docs.anthropic.com/en/docs/build-with-claude/message-batches
  2. Anthropic 공식 가격 페이지 — anthropic.com/pricing
  3. Claude Opus 4.6 Pricing 완전 가이드 (aifreeapi.com, 2026.02.08) — aifreeapi.com/en/posts/claude-opus-4-pricing
  4. Claude API Pricing Guide 2026 (devtk.ai, 2026.02.23) — devtk.ai/en/blog/claude-api-pricing-guide-2026/
  5. Reddit r/ClaudeAI — Claude Batch API 처리 시간 실사례 (2026.01.24) — reddit.com/r/ClaudeAI/comments/1qlwhxl

본 포스팅 작성 이후 Anthropic의 서비스 정책·가격·기능이 변경될 수 있습니다. 수치는 2026년 3월 21일 기준이며, 최신 정보는 Anthropic 공식 문서(docs.anthropic.com)와 가격 페이지(anthropic.com/pricing)에서 직접 확인하세요. 본 포스팅은 정보 제공 목적으로 작성되었으며, 특정 서비스의 이용을 보장하지 않습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기