DeepSeek V3.2 API 요금, $0.28이 전부가 아닙니다

Published on

in

DeepSeek V3.2 API 요금, alt=

2026.03.18 기준
DeepSeek-V3.2 기준
공식 API 문서 기반

DeepSeek V3.2 API 요금, $0.28이 전부가 아닙니다

결론부터 말씀드리면, DeepSeek V3.2 API는 입력 토큰 기준 $0.28/M이지만 이건 ‘캐시 미스’ 기준입니다. 캐시 히트 시엔 $0.028/M — 정확히 10분의 1입니다. 문제는 캐시가 언제 적용되고 언제 안 되는지, 대부분의 글에서 제대로 설명하지 않는다는 거예요.

$0.028
캐시 히트 입력/M
$0.28
캐시 미스 입력/M
$0.42
출력 토큰/M
128K
컨텍스트 윈도우

deepseek-chat과 reasoner, 이름만 다른 같은 모델입니다

API를 쓸 때 모델 이름을 deepseek-chatdeepseek-reasoner 중에 골라야 하는데, 사람들이 흔히 “두 모델은 서로 다른 모델이고 가격도 다를 것”이라고 생각합니다. 막상 공식 문서를 보면 다릅니다.

💡 공식 문서에 적혀 있는 내용과 실제 API 동작 방식을 함께 놓고 보니 이런 차이가 보였습니다.

DeepSeek 공식 API 문서(2026.03 기준)에는 이렇게 명시되어 있습니다. “deepseek-chat과 deepseek-reasoner는 모두 DeepSeek-V3.2 모델 버전에 해당하며, 두 모델의 가격 체계는 동일합니다.” (출처: DeepSeek API 공식 가격 페이지)

둘의 차이는 모델 자체가 아니라 동작 모드입니다. deepseek-chat은 사고 과정을 드러내지 않는 일반 응답 모드(Non-thinking)이고, deepseek-reasoner는 Chain-of-Thought 추론 과정을 포함하는 Thinking 모드입니다. 가격은 같지만 출력 토큰 수는 reasoner 쪽이 훨씬 많아집니다.

구분 deepseek-chat deepseek-reasoner
모델 버전 DeepSeek-V3.2 DeepSeek-V3.2
모드 Non-thinking Thinking (CoT)
최대 출력 8K 토큰 64K 토큰
Tool Calling ✅ 지원 ⚠️ 내부적으로 chat 모드 사용
입력 가격(캐시 미스) $0.28/M $0.28/M
출력 가격 $0.42/M $0.42/M (CoT 토큰 포함)

이게 중요한 이유는 간단합니다. reasoner 모드를 쓰면 추론 과정(CoT 토큰)도 출력 토큰으로 과금됩니다. “단순 질문에 reasoner를 쓰면 생각보다 돈이 많이 나온다”는 말이 나오는 게 이 때문입니다.

▲ 목차로 돌아가기

$0.028이 되는 조건, 생각보다 까다롭습니다

캐시 히트 가격 $0.028/M이 워낙 자주 언급되다 보니, “어차피 캐시 적용되니까 $0.028이겠지”라고 넘어가는 경우가 많습니다. 그런데 공식 캐싱 가이드에는 이 조건이 명확히 나와 있습니다.

💡 공식 문서와 실제 API 응답 구조를 같이 보니, 캐싱이 적용되는 범위가 생각보다 좁다는 게 보였습니다.

캐시는 동일한 프리픽스(Prefix)가 있을 때만 적용됩니다. 두 요청의 시작 부분이 완전히 같아야 해요. 예를 들어 시스템 프롬프트가 동일하고 이후 유저 메시지가 달라도, 시스템 프롬프트 부분은 캐시 히트로 처리됩니다. (출처: DeepSeek 공식 Context Caching 가이드)

그런데 여기서 생기는 함정이 있습니다. 캐시 단위가 최소 64 토큰이라는 점입니다. 64 토큰 미만의 짧은 시스템 프롬프트를 쓰면 캐싱이 아예 작동하지 않습니다. 짧은 API 요청이 많은 상황에서는 $0.028을 기대하기 어렵다는 의미입니다.

⚠️ 캐싱 미적용 케이스 정리 (공식 문서 기준)
• 요청 간 프리픽스가 다른 경우 (질문마다 시스템 프롬프트가 달라지면 매번 캐시 미스)
• 공유 접두사가 64 토큰 미만인 경우
• 이전 캐시가 수 시간~수일 이내에 자동 삭제된 이후 첫 요청

실제로 챗봇처럼 매 대화마다 시스템 프롬프트가 고정된 서비스라면 캐시 효과가 큽니다. 하지만 동적으로 프롬프트가 바뀌는 서비스라면 캐시 히트율이 낮아져 실제 비용은 $0.28 쪽에 훨씬 가깝게 나올 수 있습니다.

▲ 목차로 돌아가기

캐시 히트가 보장되지 않는다는 공식 문서의 경고

DeepSeek 공식 문서에는 이 문장이 있습니다. “The cache system works on a ‘best-effort’ basis and does not guarantee a 100% cache hit rate.” (출처: DeepSeek Context Caching 공식 가이드) 즉, 캐시 히트는 보장이 아닌 최선 노력(Best-Effort) 기반입니다. 비용 예산을 짤 때 “캐시 히트 100%”를 가정하면 실제 청구서가 예상을 훨씬 웃돌 수 있습니다.

API 응답에는 prompt_cache_hit_tokensprompt_cache_miss_tokens 필드가 포함되어 있습니다. 이 두 값을 모니터링하면 실제 캐시 히트율을 확인할 수 있습니다. 실제 프로덕션 환경에서는 이 값을 반드시 로깅해야 예산 초과를 막을 수 있습니다.

💡 캐시 만료 시간도 변수입니다. 캐시는 사용되지 않으면 “수 시간~수일” 내에 자동 삭제됩니다 (DeepSeek 공식 문서). 트래픽이 적은 서비스는 캐시가 자주 만료되어 다음 요청이 늘 캐시 미스로 처리될 수 있습니다. 이 말은 하루 몇 번만 API를 호출하는 소규모 서비스는 캐싱 이점을 거의 누리기 어렵다는 뜻입니다.

가격표에 $0.028/M이 크게 적혀 있어도, 실제 프로젝트에서 경험하는 평균 입력 단가는 캐시 히트율에 따라 $0.028과 $0.28 사이 어딘가에 놓입니다. 히트율 50% 기준으로 계산하면 실효 입력 단가는 약 $0.154/M — 흔히 말하는 “$0.028″의 5.5배입니다.

▲ 목차로 돌아가기

GPT-5 대비 95% 싸다는 말, 실제로 계산해봤습니다

“GPT-5보다 최대 95% 저렴하다”는 말이 자주 나옵니다. 이 수치는 어디서 온 걸까요. costgoat.com(2026.02.01 업데이트)의 비교표를 보면, GPT-5의 출력 토큰 가격이 $10/M인 반면 DeepSeek V3.2는 $0.42/M입니다.

모델 입력(캐시 미스) 출력 DeepSeek 대비
DeepSeek V3.2 $0.28/M $0.42/M 기준
GPT-5 $1.25/M $10/M 출력 기준 약 24배
Claude Opus 4.6 $3/M $15/M 출력 기준 약 36배
Gemini 2.0 Flash-Lite $0.075/M $0.30/M 입력 기준 DeepSeek보다 저렴

(출처: tldl.io LLM API 가격 비교, 2026.03.02 기준, CostGoat DeepSeek 가격 계산기, 2026.02.01 기준)

이 수치가 의미하는 건 간단합니다. 단순 텍스트 생성 중심의 서비스라면 GPT-5 대비 출력 비용이 약 24배 저렴하다는 뜻이고, 이건 월 100만 원짜리 API 비용이 약 4만 원대로 줄어드는 수준입니다.

단, 이 계산은 캐시 미스 기준이고 출력 품질이 동등하다는 전제가 따릅니다. 복잡한 추론이 필요한 작업에서 GPT-5 수준의 정확도가 필요하다면, DeepSeek으로 대체했을 때 재시도 횟수나 후처리 비용이 추가될 수 있다는 점은 확인이 필요합니다.

▲ 목차로 돌아가기

신규 가입 시 무료 토큰 5M, 여기서 걸립니다

DeepSeek 플랫폼에 처음 가입하면 5M 토큰을 무료로 받습니다. 신용카드도 필요 없습니다. (출처: DeepSeek 공식 플랫폼, CostGoat 가격 가이드 2026.02.01)

5M 토큰이 얼마나 쓸 수 있는 양인지 계산해 보면, 평균 500토큰짜리 요청(입력 300 + 출력 200)을 기준으로 약 1만 회 요청이 가능합니다. 이건 일반적인 개발 테스트와 소규모 PoC(개념 검증)를 진행하기에 충분한 양입니다.

💡 무료 토큰이 소진된 이후를 준비할 때, 실제 서비스에 적용할 요청 패턴으로 캐시 히트율을 먼저 측정해두는 게 중요합니다. 무료 구간에서 측정한 히트율 데이터가 유료 전환 후 비용 예측의 기준이 됩니다.

걸리는 지점은 무료 토큰의 유효기간과 잔여 토큰 확인 방법입니다. 공식 문서에는 유효기간이 명시되어 있지 않으며, platform.deepseek.com의 대시보드에서 잔여 크레딧 현황을 확인해야 합니다. 별도 알림이 없어서 무료 토큰이 소진된 이후에도 호출이 계속되면 유료 과금이 바로 시작됩니다. 이 부분은 반드시 사용 한도 알림을 직접 설정해두어야 합니다.

▲ 목차로 돌아가기

Gemini Flash-Lite가 더 싸다는 말은 진짜일까요

가격 비교표를 보면 Gemini 2.0 Flash-Lite($0.075/M 입력)가 DeepSeek V3.2($0.28/M)보다 훨씬 저렴합니다. 이 말은 맞습니다. 그런데 “모든 상황에서 Flash-Lite가 낫다”고 결론 내리기 전에 몇 가지를 확인해야 합니다.

첫 번째, DeepSeek의 캐시 히트 가격은 $0.028/M입니다. 프리픽스가 잘 구성된 서비스에서 캐시 히트율이 70% 이상이라면, 실효 입력 단가는 약 $0.084~$0.091/M으로 Gemini Flash-Lite와 비슷한 수준이 됩니다. 두 번째, DeepSeek V3.2는 128K 컨텍스트 윈도우를 제공하지만, Gemini Flash-Lite는 1M 컨텍스트를 제공합니다. 초장문 문서 처리에서는 Gemini가 압도적으로 유리합니다.

항목 DeepSeek V3.2 Gemini 2.0 Flash-Lite
입력(기본) $0.28/M $0.075/M
입력(캐시 히트) $0.028/M 별도 캐싱 정책 적용
출력 $0.42/M $0.30/M
컨텍스트 윈도우 128K 1M
추론 모드 Thinking/Non-thinking Non-thinking
OpenAI API 호환 별도 SDK 필요

(출처: tldl.io LLM API 가격 비교, 2026.03.02 기준)

솔직히 말하면, 단순 텍스트 생성·분류·요약 중심의 고빈도 서비스에는 Gemini Flash-Lite가 더 유리합니다. 반면 추론이 필요한 작업, OpenAI API와의 호환성이 중요한 기존 스택, 또는 캐시 히트율이 높게 설계된 서비스라면 DeepSeek V3.2가 경쟁력이 있습니다.

▲ 목차로 돌아가기

자주 묻는 질문

Q. deepseek-chat과 deepseek-reasoner의 가격은 다른가요?

아닙니다. 2025년 9월 29일 DeepSeek-V3.2 적용 이후 두 모델은 동일한 요금 체계를 사용합니다. 입력(캐시 미스) $0.28/M, 출력 $0.42/M으로 동일합니다. 차이는 가격이 아니라 최대 출력 토큰 수(chat: 8K, reasoner: 64K)와 동작 모드입니다. (출처: DeepSeek API 공식 가격 페이지, 2026.03 기준)

Q. 캐시 히트를 100% 보장받을 수 있나요?

보장되지 않습니다. DeepSeek 공식 문서에 “best-effort basis, does not guarantee 100% cache hit rate”라고 명시되어 있습니다. 또한 캐시는 일정 시간 미사용 시 자동 삭제됩니다. 예산 계획 시 캐시 히트율 50~70%를 가정하는 게 안전합니다.

Q. 신규 가입 무료 토큰 5M은 어떻게 받나요?

platform.deepseek.com에서 회원가입 시 신용카드 없이 자동으로 5M 토큰이 지급됩니다. deepseek-chat과 deepseek-reasoner 모두에서 사용 가능합니다. 다만 유효기간과 잔여량은 플랫폼 대시보드에서 직접 확인해야 합니다.

Q. Tool Calling을 쓰면 reasoner가 동작하지 않나요?

Tool Calling 파라미터를 포함한 요청은 내부적으로 deepseek-chat(non-thinking) 모드로 처리됩니다. reasoner 엔드포인트를 지정해도 Tool Calling이 포함되면 thinking 모드가 동작하지 않습니다. (출처: DeepSeek API 공식 문서, CostGoat 가이드 2026.02.01)

Q. OpenAI 코드를 그대로 DeepSeek으로 전환할 수 있나요?

대부분의 경우 base_url만 https://api.deepseek.com으로 바꾸면 됩니다. OpenAI SDK와 API 형식이 호환됩니다. 단, 일부 OpenAI 전용 파라미터나 스트리밍 동작 방식에서 차이가 있을 수 있으므로 프로덕션 적용 전 테스트가 필요합니다.

▲ 목차로 돌아가기

마치며 — 싼 건 맞는데, 조건이 있습니다

DeepSeek V3.2 API는 현존 최저가 프런티어 API 중 하나인 건 맞습니다. 하지만 “$0.28이 전부”라고 생각했다가 실제 청구서를 보면 다릅니다. 캐시 히트율, reasoner의 CoT 토큰 누적, 무료 토큰 소진 후 과금 시작 이 세 가지가 실제 비용을 가르는 변수입니다.

직접 써본 입장에서 정리하면, 프리픽스가 고정된 고빈도 서비스(챗봇, FAQ 자동화 등)에서는 캐시 히트 덕분에 극단적으로 저렴하게 쓸 수 있습니다. 반대로 매번 프롬프트가 바뀌는 동적 서비스나 하루 요청이 적은 개인 프로젝트에서는 캐시 이점이 거의 없습니다.

결국 “싸다”는 건 조건부입니다. API 응답의 cache_hit_tokens 값을 먼저 측정하고, 그 수치로 실제 월간 비용을 역산한 뒤 도입을 결정하는 순서가 맞습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. DeepSeek API 공식 가격 페이지 — api-docs.deepseek.com/quick_start/pricing/
  2. DeepSeek 공식 Context Caching 가이드 — api-docs.deepseek.com/guides/kv_cache
  3. DeepSeek-V3.2 공식 출시 발표 — api-docs.deepseek.com/news/news251201 (2025.12.01)
  4. Cheapest LLM API 2026 비교 — tldl.io (2026.03.02 기준)
  5. DeepSeek API 비용 계산기 — CostGoat (2026.02.01 기준)

본 포스팅은 2026년 3월 18일 기준 DeepSeek API 공식 문서를 바탕으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 수치 및 요금은 반드시 공식 사이트에서 최신 정보를 재확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기