DeepSeek V4 API 요금,
싸다고 바로 쓰면 손해인 조건
출력 토큰 요금 비교만 보고 넘어가면 월 비용이 예상보다 커질 수 있습니다.
캐시 히트율, 오프피크 할인, 서버 불안정까지 공식 수치로 짚어봤습니다.
출력 $0.50/1M
캐시 히트 $0.03/1M
컨텍스트 1M 토큰
V4 공식 요금표 — 숫자 그대로 읽으면 안 되는 이유
DeepSeek V4 API 요금은 입력 1M 토큰당 $0.30, 출력 1M 토큰당 $0.50입니다. 공식 가이드(출처: nxcode.io, 2026.03 기준)에 따르면 2026년 3월 초 플래그십 V4가 정식 출시됐고, 같은 페이지에서 GPT-5.4 입력 단가인 $2.50과 나란히 비교하면 약 8배 저렴합니다. 그런데 여기서 멈추면 절반만 본 겁니다.
DeepSeek API 공식 문서(api-docs.deepseek.com)에는 요금 구조가 단일 단가가 아닌 캐시 히트/캐시 미스 두 가지 경로로 나뉩니다. 동일 프롬프트 접두어가 캐시에 잡히면 $0.03/1M, 잡히지 않으면 $0.30/1M — 같은 요청인데 단가가 10배 벌어집니다. 실제 비용은 이 비율이 어떻게 나오느냐에 달려 있습니다.
더구나 공식 문서는 “Product prices may vary and DeepSeek reserves the right to adjust them.“이라고 명시했습니다. V3.2→V4 전환 과정에서도 출력 단가가 $0.42에서 $0.50으로 오른 전례가 있습니다. 요금표 숫자만 보고 예산을 짜면 실제 청구서가 달라질 수 있습니다.
| 모델 | 입력 (캐시 미스) | 입력 (캐시 히트) | 출력 | 컨텍스트 |
|---|---|---|---|---|
| DeepSeek V4 | $0.30 | $0.03 | $0.50 | 1M |
| DeepSeek V3.2 | $0.28 | $0.028 | $0.42 | 128K |
| DeepSeek R1 | $0.55 | $0.14 | $2.19 | 128K |
(출처: DeepSeek 공식 API 문서 api-docs.deepseek.com, nxcode.io 2026.03 기준 / 1M = 100만 토큰)
캐시 히트율 역산 — 실제 입력 단가가 달라지는 구조
💡 공식 문서의 캐시 히트 단가와 캐시 미스 단가를 실제 사용 패턴에 대입하면, 같은 모델인데 실질 입력 비용이 최대 10배 차이납니다. 많은 블로그가 $0.30/1M만 언급하고 넘어가는 부분입니다.
DeepSeek V4의 캐시 히트 단가는 $0.03/1M으로, 캐시 미스($0.30)의 10분의 1입니다(출처: api-docs.deepseek.com). 시스템 프롬프트나 툴 정의처럼 요청마다 반복되는 접두어가 있을 때 캐싱이 적용됩니다. 캐시 히트율 70% 기준으로 실질 입력 단가를 직접 계산해보면 이렇습니다.
📐 실질 입력 단가 계산 (히트율 70% 가정)
실질 단가 = (히트 비율 × $0.03) + (미스 비율 × $0.30)
= (0.7 × $0.03) + (0.3 × $0.30)
= $0.021 + $0.09
= $0.111 / 1M 토큰
히트율이 0%일 때($0.30)와 비교하면 실질 단가가 약 63% 줄어듭니다.
반대로 캐시 히트율이 10% 미만인 케이스를 봅시다. 매번 프롬프트가 달라지는 창작·번역 파이프라인은 캐싱 효과가 거의 없습니다. 이 경우 실질 입력 단가는 거의 $0.30/1M 그대로이고, 출력 $0.50까지 합하면 GPT-4o-mini($0.15/$0.60) 대비 입력은 비싸고 출력만 살짝 저렴한 역전 현상이 생깁니다. 캐시 전략 없이 쓰면 ‘무조건 싸다’는 전제가 흔들립니다.
2026년 3월 기준 주요 모델 요금을 나란히 놓으면, 숫자의 격차가 생각보다 큽니다(출처: nxcode.io 2026.03 가이드).
| 모델 | 입력 /1M | 출력 /1M | V4 대비 출력 배율 |
|---|---|---|---|
| DeepSeek V4 | $0.30 | $0.50 | — |
| GPT-5.4 | $2.50 | $10.00 | 20배 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 30배 |
| GPT-4o-mini | $0.15 | $0.60 | 1.2배 |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | 0.8배 |
(출처: nxcode.io DeepSeek API Pricing Guide 2026.03 / 캐시 미스 기준)
오프피크 할인 — 한국 기준으로 쓸 수 있는 시간대
💡 오프피크 할인 시간대를 베이징 기준으로만 소개한 글이 대부분입니다. 한국 사용자 기준으로 환산하면 이 시간대가 상당히 활용하기 좋은 구간입니다.
DeepSeek은 수요 급증을 관리하기 위해 오프피크 시간대에 대폭 할인된 요금을 적용합니다(출처: IndexBox, 2025.02.26 발표 — DeepSeek V3 기준으로 최초 도입, 이후 V4 체계에도 동일 구조 유지). 오프피크 시간은 베이징 기준 00:30~08:30(자정~오전 8시 반)입니다.
한국 시간(KST)은 베이징 시간(CST)보다 1시간 빠릅니다. 변환하면 한국 기준 오전 1:30~09:30이 오프피크 구간입니다. 밤새 돌리는 배치 작업, 새벽 크롤링·요약 파이프라인, 자동화 스케줄러에 이 구간을 설정하면 추가 절감이 가능합니다.
⏰ 오프피크 시간대별 할인율
모델
V4 / V3.2
최대 50%↓
모델
R1
최대 75%↓
적용 시간 (KST)
오전 01:30 ~ 09:30
(출처: IndexBox.io DeepSeek 오프피크 할인 발표, 2025.02.26 / 베이징 00:30~08:30 → KST +1시간 환산)
R1 기준으로는 오프피크 적용 시 출력 단가가 $2.19에서 약 $0.55 수준으로 떨어집니다. 복잡한 추론 작업을 야간 배치로 돌리면 같은 예산으로 처리 볼륨을 4배 늘릴 수 있습니다.
저렴한데도 불안한 이유 — 피크 타임 503과 보안 이슈
DeepSeek API 공식 문서에는 이런 문장이 있습니다. “During peak periods, the API may encounter capacity limitations.” 요금이 아무리 저렴해도 503 오류가 빈번하면 재시도 로직을 짜야 하고, 타임아웃 비용이 숨겨진 손실로 이어집니다(출처: api7.ai DeepSeek API 불안정성 분석, 2025.02.10).
⚠️ 프로덕션 배포 전 체크할 것
- 서버가 중국 기반 — 한국 기준 네트워크 레이턴시 상시 고려 필요
- 피크 타임(낮 시간) 503 오류 간헐적 보고 — 재시도 로직 필수
- DeepSeek 개인정보처리방침에 대화 데이터 수집 가능성 명시
- 탈옥(Jailbreak) 취약성이 R1 시리즈에서 기존 모델 대비 높게 보고됨 (출처: Theori AIOS Team, 2025.02.06)
보안 민감 데이터를 다루는 서비스라면 직접 API 대신 Together AI나 Fireworks 같은 타사 호스팅 경유가 현실적인 선택지입니다. R1은 타사 경유 시 요금이 1M당 $7~$8대로 뛰지만, 데이터가 중국 서버를 직접 통과하지 않는다는 점에서 기업 환경에서는 고려할 만합니다.
V4 vs V3.2 vs R1 — 작업별 선택 기준
💡 공식 요금 발표문과 실제 작업 패턴을 같이 놓고 보면, 항상 V4가 정답이 아니라는 게 보입니다. 작업 유형에 따라 V3.2가 더 합리적인 경우가 있습니다.
V4가 V3.2보다 입력 단가($0.30 vs $0.28)와 출력 단가($0.50 vs $0.42) 모두 높습니다. V4의 핵심 장점은 1M 토큰 컨텍스트 윈도우와 SWE-bench Verified 81% 성능(V3의 69% 대비)입니다(출처: nxcode.io 2026.03). 긴 문서 처리, 복잡한 코드 생성에서는 V4가 정당합니다. 하지만 단순 챗봇이나 텍스트 분류처럼 128K 컨텍스트로 충분한 작업은 V3.2가 비용 대비 더 낫습니다.
| 작업 유형 | 추천 모델 | 이유 |
|---|---|---|
| 긴 문서 요약·분석 (128K+) | V4 | 1M 컨텍스트 필수 |
| 복잡한 코드 생성·디버깅 | V4 | SWE-bench 81% 성능 |
| 일반 챗봇·콘텐츠 생성 | V3.2 | 128K면 충분, 비용↓ |
| 데이터 분류·추출 (반복 요청) | V3.2 + 캐시 전략 | 히트율 극대화 |
| 수학·논리·다단계 추론 | R1 (오프피크) | 야간 배치 시 75% 절감 |
(출처: DeepSeek 공식 API 문서 및 nxcode.io 2026.03 가이드 기반 정리)
솔직히 말하면 대부분의 SaaS 내부 파이프라인은 V3.2로도 충분합니다. V4를 쓰는 게 확실히 이득인 시점은 128K를 초과하는 문서를 자주 처리하거나, 코딩 에이전트에서 정확도가 결과를 좌우하는 작업일 때입니다.
무료 크레딧 5M 토큰, 실제로 어디까지 되나
신규 가입 시 신용카드 없이 500만 토큰이 지급됩니다(출처: platform.deepseek.com 공식 안내 / 가입 후 30일간 유효). V4 기준으로 캐시 미스 입력+출력이 혼합된 일반적인 시나리오($0.30 입력, $0.50 출력, 입출력 1:1 가정)로 환산하면, 5M 토큰의 가치는 약 $2.0~$2.5 수준입니다.
1,000 토큰짜리 요청·응답 기준으로 약 2,500~3,500회 호출이 가능합니다. 개인 프로젝트 테스트에는 넉넉한 분량이지만, 프로덕션 검증 목적으로는 며칠이면 소진됩니다. 가입 즉시 오프피크 시간대에 테스트를 몰아서 진행하면 같은 크레딧으로 더 많은 실험이 가능합니다.
💡 무료 크레딧 100% 활용 팁
- 가입 후 즉시 system prompt를 고정해 캐시 히트율 높이기
- 한국 기준 오전 1:30~9:30 오프피크 구간에 테스트 집중
- 30일 기한 — 가입 날짜 캘린더에 반드시 표기
- 크레딧 소진 전 실 사용 패턴으로 월 비용 추정 후 충전 여부 결정
Q&A
마치며 — 싸긴 싼데, 조건이 있습니다
DeepSeek V4 API 요금이 GPT-5.4 대비 출력 기준 20배 저렴한 건 사실입니다. 그런데 캐시 히트율 관리 없이 쓰면 기대한 절감 효과가 절반 이하로 줄고, 피크 타임 503 오류에 대한 대비가 없으면 서비스 안정성이 흔들릴 수 있습니다. 오프피크 할인까지 챙기면 R1은 야간 배치에서 쓸 이유가 충분하고, V3.2는 단순 작업에 여전히 최강의 가성비입니다.
결론부터 말하면, DeepSeek V4가 진짜 유리한 상황은 128K를 넘는 장문 처리, 고난도 코딩, 캐시 히트율을 70% 이상 확보할 수 있는 반복성 파이프라인입니다. 그 외의 케이스라면 V3.2나 경쟁 모델과 실제 단가를 직접 계산해보고 선택하는 게 훨씬 안전합니다.
본 포스팅 참고 자료
본 포스팅 작성 이후 DeepSeek 서비스 정책·UI·기능·요금이 변경될 수 있습니다. 모든 수치는 2026.04.01 기준 공식 자료에 근거하며, 최신 요금은 api-docs.deepseek.com에서 직접 확인하시기 바랍니다. IT/AI 서비스 특성상 버전 업데이트·정책 변경이 수시로 발생할 수 있습니다.

댓글 남기기