DeepSeek V3.2 API, 싸다는데 더 비싸졌습니다

Published on

in

DeepSeek V3.2 API, 싸다는데 더 비싸졌습니다

2026.03.21 기준 / DeepSeek V3.2 API
IT/AI

DeepSeek V3.2 API, 싸다는데 더 비싸졌습니다

결론부터 말씀드리면, DeepSeek V3.2의 공식 API 입력 가격은 이전 버전(V3) 대비 2배 올랐습니다. “세상에서 가장 싼 프런티어 AI”라는 타이틀은 유지되지만, 버전이 바뀌면서 가격 구조가 크게 달라졌고, 캐시 히트 조건·자가 호스팅 요건·검열 이슈까지 따지면 실제 비용은 계산보다 높게 나올 수 있습니다.

$0.28
V3.2 입력 1M 토큰
$0.14
구 V3 입력 가격 (단종)
$0.028
캐시 히트 시 입력가

V3에서 V3.2로 올라가며 가격도 올랐습니다

많은 글에서 “DeepSeek은 GPT-5보다 10~25배 저렴하다”는 비교가 등장합니다. 틀린 말은 아닙니다. 그런데 정작 V3 → V3.2 사이에 가격이 어떻게 바뀌었는지는 거의 언급되지 않습니다. 직접 공식 문서에서 확인해봤습니다.

💡 공식 문서와 실제 청구 패턴을 함께 놓고 보니 이런 차이가 보였습니다

V3 시절($0.14 입력)을 기준으로 예산을 짜둔 팀이라면, V3.2로 전환한 시점부터 입력 비용이 2배로 올라 월 청구액이 예상치를 훌쩍 넘길 수 있습니다.

공식 API 문서(api-docs.deepseek.com/quick_start/pricing, 2026.03.21 확인)에 따르면 현재 deepseek-chatdeepseek-reasoner 모델명은 모두 DeepSeek-V3.2에 대응합니다. 별도 공지 없이 백엔드 모델이 교체된 구조입니다.

버전 입력 1M (캐시 미스) 입력 1M (캐시 히트) 출력 1M
V3 (단종) $0.14 $0.28
V3.2 (현재) $0.28 $0.028 $0.42

(출처: DeepSeek 공식 API 문서, api-docs.deepseek.com/quick_start/pricing, 2026.03.21 기준)

캐시 히트 입력 단가($0.028)는 캐시 미스($0.28)의 10분의 1입니다. 같은 V3.2를 쓰더라도 캐시가 얼마나 맞느냐에 따라 청구액이 최대 10배까지 벌어집니다.

▲ 목차로 돌아가기

캐시 히트 비율이 실제 비용을 결정합니다

DeepSeek V3.2 가격표에서 캐시 히트($0.028)라는 항목이 핵심입니다. 공식 문서에는 “동일한 컨텍스트를 최근에 처리한 경우 캐시를 재사용한다”고 명시돼 있습니다. 그런데 이 조건이 생각보다 까다롭습니다.

💡 캐시가 맞는 패턴과 안 맞는 패턴을 같이 놓고 보면 차이가 납니다

동일한 시스템 프롬프트를 반복 사용하는 챗봇 서비스는 캐시 히트율이 높지만, 매번 다른 문서를 분석하는 RAG 파이프라인은 캐시가 거의 안 맞아 캐시 미스 단가($0.28)가 거의 100% 적용됩니다.

캐시 히트율에 따른 실제 단가 계산

캐시 히트율 0%이면 입력 단가는 $0.28/M, 히트율 80%이면 실효 입력 단가는 아래와 같이 계산됩니다.

실효 입력 단가 = (0.8 × $0.028) + (0.2 × $0.28)
= $0.0224 + $0.056
= $0.0784/M 토큰

히트율 80% 가정 시 $0.0784/M, 히트율 0% 가정 시 $0.28/M으로 약 3.6배 차이가 납니다. 비용을 예측할 때 캐시 히트 가정을 어떻게 잡느냐에 따라 월 예산이 크게 달라집니다.

공식 FAQ에는 “레이트 리밋은 실시간 서버 부하와 계정별 단기 사용량에 따라 동적으로 조정되며, 특정 계정의 한도를 늘리는 건 현재 지원하지 않는다”고 나옵니다. (출처: DeepSeek API FAQ, api-docs.deepseek.com/faq, 2026.03.21 기준) 트래픽이 폭증하면 공식 레이트 리밋 없이도 실질적인 응답 지연이 발생할 수 있다는 뜻입니다.

▲ 목차로 돌아가기

GPT-5·Gemini와 비교하면 여전히 저렴하지만

그래도 GPT-5와 비교하면 DeepSeek V3.2는 여전히 압도적으로 저렴합니다. 실제 워크로드(입력 10만 토큰 + 출력 10만 토큰) 기준으로 직접 계산해봤습니다.

모델 입력 100K 토큰 출력 100K 토큰 합계
DeepSeek V3.2 (캐시 미스 100%) $0.028 $0.042 $0.070
DeepSeek V3.2 (캐시 히트 80%) $0.00784 $0.042 $0.050
GPT-5 $1.00 $1.00 $2.00
Claude 4.5 Sonnet (추정) 약 $0.30 약 $1.50 약 $1.80

(DeepSeek 공식 API 문서 기준, GPT-5·Claude 추정치는 공개 가격표 기반 / 2026.03.21)

캐시 미스 기준으로도 DeepSeek V3.2($0.070)는 GPT-5($2.00) 대비 약 28배 저렴합니다. 동일 예산으로 GPT-5 대신 DeepSeek을 쓰면 처리량이 28배 늘어나는 셈입니다.

성능 벤치마크도 무시할 수 없습니다. DeepSeek V3.2는 AIME 2025에서 96.0%를 기록해 GPT-5 High(94.6%)를 앞섰습니다. (출처: introl.com 벤치마크 분석, 2025.12.02) 수학·코딩 태스크에서는 비싼 모델을 꼭 써야 하는 이유가 없어진 것입니다.

단, 일반 지식 폭에서는 차이가 납니다. Humanity’s Last Exam 기준 DeepSeek V3.2는 30.6%, Gemini 3 Pro는 37.7%였습니다. 비기술 분야 광범위한 지식이 필요한 작업에서는 이 7% 격차가 실제로 느껴질 수 있습니다.

▲ 목차로 돌아가기

자가 호스팅, 생각보다 높은 장벽이 있습니다

“MIT 라이선스니까 직접 서버에 올려서 쓰면 된다”는 말을 자주 접합니다. 맞는 말입니다. 그런데 막상 해보면 하드웨어 요건이 만만치 않습니다.

정밀도 필요 VRAM GPU 구성 예시
FP16 (풀 프리시전) 약 1.3 TB H100 80GB × 16장 이상
8비트 양자화 약 670 GB H100 80GB × 8장 이상
4비트 양자화 약 335 GB H100 80GB × 4장 이상

(출처: introl.com, DeepSeek V3.2 배포 요건 분석, 2025.12.02 기준)

4비트 양자화로 절반 이상 줄여도 H100 80GB가 4장 필요합니다. H100 한 장 렌탈 비용이 시간당 약 $2~$4 수준이니, 4장이면 시간당 최소 $8입니다. 월 720시간 상시 구동 시 약 $5,760~$11,520이 인프라에만 들어갑니다.

월 토큰 사용량이 약 200억 토큰 미만이라면 공식 API가 자가 호스팅보다 저렴합니다. 200억 토큰을 공식 API로 처리하면 약 $5,600인데, 이 지점을 넘어서야 자가 호스팅 손익분기가 됩니다.

오픈소스라서 자유롭게 쓸 수 있다는 건 사실이지만, 그 자유를 실현하기 위한 비용 구조가 따로 있습니다. 개인 개발자나 스타트업 초기 단계에서는 공식 API가 현실적입니다.

▲ 목차로 돌아가기

공식 API에서 검열이 적용되는 조건이 있습니다

DeepSeek이 오픈소스라는 사실과, 공식 API에서 검열이 없다는 사실은 별개입니다. WIRED의 분석(2025.01.31)에 따르면 검열은 두 가지 층위로 작동합니다.

① 애플리케이션 레벨 검열

DeepSeek 공식 앱·웹·API를 통할 때 적용. 특정 정치 주제에서 응답이 차단되거나 빈 응답이 반환됩니다.

② 학습 과정 내 편향

모델 가중치 자체에 포함된 편향. 서드파티나 로컬 호스팅에서도 완전히 제거되지 않으며, 중국 정부 입장에 부합하는 방향으로 답변이 유도됩니다.

코딩·수학·데이터 분석처럼 정치와 무관한 태스크라면 이 검열이 실제 사용에 거의 영향을 주지 않습니다. 하지만 뉴스 요약, 글로벌 이슈 분석, 역사 콘텐츠 생성 등에서는 예상치 못한 응답 공백이 생길 수 있습니다.

⚠️ 공식 API에서 특정 프롬프트가 빈 응답을 반환하거나 갑자기 주제를 바꾼다면, 모델 품질 문제가 아니라 검열 필터가 작동한 것일 수 있습니다. DeepSeek이 이유를 공식 답변하지 않은 부분입니다.

서드파티 호스팅(예: AWS·Azure에 직접 배포)을 통하면 애플리케이션 레벨 검열은 우회되지만, 학습 수준의 편향은 별도 파인튜닝 없이는 남아 있습니다.

▲ 목차로 돌아가기

실제 월 비용 계산 예시

실제로 서비스에 붙일 때 비용이 어떻게 나오는지, 세 가지 시나리오로 직접 계산해봤습니다.

시나리오 A: 개인 개발자 / 월 5억 토큰 입력·출력

입력 5억 토큰 (캐시 미스 100%) = 500 × $0.28 = $140
출력 5억 토큰 = 500 × $0.42 = $210
월 합계 = $350 (약 51만 원)

시나리오 B: 챗봇 서비스 / 월 50억 토큰 (캐시 히트 60%)

입력 캐시 히트 30억 = 3000 × $0.028 = $84
입력 캐시 미스 20억 = 2000 × $0.28 = $560
출력 50억 토큰 = 5000 × $0.42 = $2,100
월 합계 = $2,744 (약 400만 원)

시나리오 C: 동일 워크로드를 GPT-5로 처리한다면

GPT-5 입력 50억 토큰 = 5000 × $1.00 = $5,000
월 합계 = $10,000 (약 1,460만 원)
→ DeepSeek 대비 약 3.6배 비쌈

캐시 히트율 60% 조건에서도 DeepSeek V3.2는 GPT-5 대비 월 비용이 약 72% 절감됩니다. 사용량이 클수록 절감 효과가 커지지만, 절감 폭은 캐시 패턴에 따라 달라진다는 점을 주의해야 합니다.

▲ 목차로 돌아가기

Q&A

Q1. deepseek-chat 모델명으로 API를 호출하면 V3.2가 돌아가나요, 구 V3이 돌아가나요?
공식 문서(api-docs.deepseek.com/quick_start/pricing, 2026.03.21 기준)에 deepseek-chat = DeepSeek-V3.2라고 명시돼 있습니다. 구 V3은 단종(Deprecated)됐고 현재 모델명으로 호출하면 V3.2가 실행됩니다. 기존 V3 단가($0.14)를 기준으로 예산을 잡은 경우라면 지금 당장 점검이 필요합니다.
Q2. 캐시 히트를 높이려면 어떻게 해야 하나요?
동일한 시스템 프롬프트나 배경 문서를 반복 사용하는 구조가 캐시 히트에 유리합니다. 예를 들어 챗봇에서 매번 동일한 시스템 프롬프트를 첫 번째 메시지로 보내면 캐시가 맞을 확률이 높아집니다. 반대로 매 요청마다 다른 긴 문서를 붙이는 패턴(RAG)은 캐시 미스율이 높습니다. 공식 문서에서 캐시 적중 조건의 구체적 알고리즘은 공개하지 않았습니다.
Q3. 오픈소스라고 했는데 상업적으로 써도 되나요?
V3.2는 MIT 라이선스로 배포됐습니다. 저작권 고지를 유지하는 조건 아래 상업적 사용, 수정, 재배포 모두 허용됩니다. 단, 모델 가중치를 직접 배포·서비스하려면 하드웨어 요건(최소 4비트 양자화 기준 H100 80GB 4장)을 충족해야 합니다.
Q4. DeepSeek V3.2 Reasoner와 일반 Chat 모델의 가격 차이가 있나요?
현재 공식 가격표 기준으로 동일합니다. deepseek-chat(Non-thinking Mode)과 deepseek-reasoner(Thinking Mode) 모두 입력 $0.28/M, 출력 $0.42/M으로 같습니다. 다만 Reasoner(Thinking Mode)의 기본 최대 출력은 32K 토큰으로, Chat(8K)보다 4배 많아 자동으로 출력 토큰이 더 많이 발생할 수 있습니다.
Q5. 충전한 잔액이 남으면 환불이 되나요?
됩니다. 공식 FAQ에 “미사용 잔액은 환불 가능하다”고 명시돼 있으며, 플랫폼 Billing 페이지에서 직접 환불 처리할 수 있습니다. 단, DeepSeek이 무상 지급한 크레딧(Granted Balance)은 환불 대상이 아닌 경우가 있으므로 충전 잔액(Topped-up Balance)과 구분해서 확인해야 합니다.

▲ 목차로 돌아가기

마치며

DeepSeek V3.2는 GPT-5 대비 수십 배 저렴하다는 점은 사실입니다. 그런데 “싸다”는 말을 그대로 믿고 예산을 짰다가 실제 청구서를 보면 당황하는 경우가 생깁니다. 이전 V3와 비교하면 입력 단가가 2배 올랐고, 캐시 히트율에 따라 실제 비용이 최대 10배까지 벌어집니다.

코딩·수학·데이터 분석처럼 기술 집약적 작업에서 DeepSeek V3.2는 GPT-5 이상의 정확도를 보이면서 비용은 훨씬 낮습니다. 이 조건에서는 선택지가 명확합니다. 반면 넓은 일반 지식이 필요하거나 정치·사회 이슈가 포함된 콘텐츠 작업이라면, 검열 필터와 편향 문제를 감안해 서드파티 호스팅이나 대안 모델을 병행하는 전략이 필요합니다.

자가 호스팅은 이론상 자유롭지만 GPU 비용이 만만치 않습니다. 월 처리량이 약 200억 토큰을 넘어서는 규모가 아니라면, 공식 API를 쓰는 편이 현실적입니다. 싸다는 전제는 맞지만, 어떤 조건에서 얼마나 싼지는 직접 계산해봐야 알 수 있습니다.

본 포스팅 참고 자료

  1. DeepSeek 공식 API 가격 문서 (api-docs.deepseek.com)
  2. DeepSeek V3.2 공식 릴리스 노트 (2025.12.01)
  3. DeepSeek API 공식 FAQ
  4. DeepSeek V3.2 벤치마크 및 비용 분석 — introl.com (2025.12.02)
  5. DeepSeek 검열 구조 분석 — WIRED (2025.01.31)
  6. DeepSeek API 가격 변경 이력 — tldl.io (2026.03.05 업데이트)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. API 가격·모델 사양은 DeepSeek 공식 플랫폼(platform.deepseek.com)에서 최신 정보를 직접 확인하시기 바랍니다. 본 포스팅의 계산 예시는 2026.03.21 기준 공식 가격표를 바탕으로 작성됐으며, 실제 청구액은 캐시 히트율·사용 패턴에 따라 달라질 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기