DeepSeek-V3.2 공식 릴리스
MIT 라이선스 오픈소스
DeepSeek V3.2, 싸다고 했는데 이 구간이 다릅니다
“GPT-4o보다 9배 저렴하다”는 말만 보고 바로 붙였다가 생각보다 청구서가 나왔다는 이야기가 있습니다. DeepSeek V3.2 공식 요금표를 실제로 뜯어보면, 캐시 히트 여부에 따라 최대 10배 가격 차이가 납니다. 이 구간을 모르면 예상 비용 계산이 완전히 틀어집니다.
“마이너 업데이트”라더니 GPT-4.5를 넘겼습니다
DeepSeek이 2025년 3월 25일 공개한 V3-0324 업데이트 공지문에는 딱 세 줄만 적혀 있었습니다. “추론 성능 향상, 프론트엔드 개발 강화, 툴 사용 개선.” API 변경 사항도 없다고 했습니다. 그런데 Milvus(Zilliz) 팀이 즉시 실측 테스트를 돌린 결과는 달랐습니다. 파라미터가 671B에서 685B로 늘었고, LiveCodeBench 코딩 평가에서 49.2%를 기록해 GPT-4.5(44.4%)와 Claude Sonnet 3.7(45.8%)을 앞질렀습니다. (출처: BytePlus 실측 비교, 2025.04.04)
💡 공식 발표문과 실제 벤치마크 수치를 같이 놓고 보니 이런 차이가 보였습니다 — DeepSeek은 자사 모델 업데이트를 공식적으로 축소 발표하는 경향이 있습니다. V3-0324(V3.2의 전신)도 동일 패턴이었습니다. “minor update”라는 표현에 담긴 실제 성능 변화는 공식 벤치마크 수치로만 확인이 가능합니다.
이후 2025년 12월 1일 DeepSeek은 V3.2를 정식 후속 모델로 발표했습니다. V3.2는 앱·웹·API 모두에서 즉시 사용 가능하고, 현재 공식 API 엔드포인트 deepseek-chat이 자동으로 V3.2를 가리킵니다. (출처: DeepSeek 공식 API 문서, 2025.12.01)
요금표의 숫자, 어느 게 진짜 내 비용일까요
DeepSeek V3.2 공식 요금표는 세 줄입니다. (출처: DeepSeek API Docs, pricing 페이지, 2025.12 기준)
| 구분 | DeepSeek V3.2 | GPT-4o (비교) |
|---|---|---|
| 입력 토큰 (캐시 히트, 1M) | $0.028 | $1.25 (캐시 적용) |
| 입력 토큰 (캐시 미스, 1M) | $0.28 | $2.50 |
| 출력 토큰 (1M) | $0.42 | $10.00 |
여기서 핵심은 캐시 히트와 캐시 미스의 가격이 정확히 10배 차이난다는 점입니다. 캐시 히트는 $0.028, 캐시 미스는 $0.28입니다. 프롬프트를 반복 재사용하거나 시스템 프롬프트가 동일한 경우에는 캐시 히트가 되지만, 매번 다른 컨텍스트를 붙이는 방식에서는 거의 캐시 미스로 청구됩니다. 실제 서비스에서 “GPT-4o 대비 9배 저렴”하다는 비교는 캐시 히트 기준인 경우가 많습니다. 캐시 미스 기준으로는 GPT-4o($2.50) 대비 약 9배 저렴한 $0.28로 여전히 싸지만, “10분의 1 비용”이라는 말과는 수치가 다릅니다.
💡 캐시 구조를 실제 API 호출 흐름과 같이 놓고 보니 이런 패턴이 보였습니다 — API 비용 계산을 할 때 캐시 히트율을 먼저 추정하지 않으면, 실제 청구 금액이 예상의 2~5배가 나올 수 있습니다. DeepSeek 공식 문서도 “정기적으로 요금 페이지를 확인하라”고 명시할 정도로 요금은 변동 가능성이 있습니다.
DSA 구조가 왜 긴 문서에서 유리한가
일반 LLM은 밀집 어텐션(dense attention)을 씁니다. 토큰 수가 두 배가 되면 계산량이 제곱으로 늘어납니다. 128K 토큰짜리 긴 문서를 처리하면 짧은 프롬프트보다 비용이 훨씬 더 가파르게 올라가는 이유입니다. DeepSeek V3.2-Exp(V3.2의 직전 실험 버전)에서 도입된 DSA(DeepSeek Sparse Attention)는 “가장 관련성 높은 토큰만 선택”해 어텐션을 계산합니다. (출처: VentureBeat, DeepSeek V3.2-Exp 기술 분석, 2025.09.29)
결과적으로 128K 토큰 구간에 도달하더라도 비용 곡선이 훨씬 완만하게 유지됩니다. VentureBeat 실측에 따르면 V3.2-Exp는 전 버전(V3.1-Terminus)보다 긴 컨텍스트 구간에서 절반 이하의 비용이 측정됐습니다. (출처: VentureBeat, 2025.09.29) 이 차이는 짧은 채팅에서는 거의 느끼기 어렵고, 긴 PDF 분석이나 코드 리뷰처럼 컨텍스트를 꽉 채워 쓰는 시나리오에서 비로소 드러납니다.
추론 모드 켜면 토큰이 달라집니다
DeepSeek V3.2의 또 다른 특이점은 같은 deepseek-chat 엔드포인트 하나에서 추론 모드와 비추론 모드를 모두 처리한다는 점입니다. 공식 문서에서 deepseek-reasoner는 기본 출력 토큰이 32K, 최대 64K이고, deepseek-chat은 기본 4K, 최대 8K입니다. (출처: DeepSeek API Docs, pricing 페이지)
추론 모드가 활성화되면 모델이 내부적으로 “생각하는” 과정을 토큰으로 생성하기 때문에 출력 토큰 수가 급격히 늘어납니다. 단순한 질문 하나에도 수천 토큰의 추론 과정이 붙을 수 있습니다. 비용 계산 시 “deepThink를 끄면 충분히 빠르고 저렴하다”는 DeepSeek 공식 권고를 그냥 넘기면 안 됩니다. (출처: DeepSeek V3-0324 릴리스 노트, 2025.03.25)
실제 토큰 소비 패턴 비교 (추정치 — 공식 수치 없음)
- 비추론 모드 (deepThink OFF): 일반 응답 약 500~2,000 출력 토큰
- 추론 모드 (deepThink ON): 내부 추론 포함 약 3,000~20,000+ 출력 토큰 (확인 필요)
- 출력 토큰 단가가 $0.42/1M이므로, 추론 모드 10회 호출이 비추론 모드 100회 호출과 비슷한 비용이 될 수 있음 (추정)
보안·규정 문제, 공식 기관이 뭐라고 했나
DeepSeek V3.2는 MIT 라이선스 오픈소스이기 때문에 모델 가중치를 직접 다운로드해 자체 서버에서 돌릴 수 있습니다. 이 점이 외부 API 호출의 데이터 보안 우려를 상당 부분 해소합니다. 그런데 DeepSeek 호스팅 API를 쓰는 경우는 다릅니다. 미국 국립표준기술연구소(NIST) 산하 CAISI는 2025년 보고서에서 “DeepSeek 모델은 에이전트 하이재킹 공격에 취약하고 검열 위험이 있다”고 명시했습니다. (출처: AI Business — NIST Report Pinpoints Risks of DeepSeek AI Models, 2025.10.01)
구체적으로, DeepSeek 앱·웹 서비스에서는 특정 정치적 주제에 대한 답변이 차단됩니다. WIRED의 조사에 따르면 이 검열은 애플리케이션 레벨과 학습 데이터 레벨 두 곳 모두에 적용됩니다. (출처: WIRED — Here’s How DeepSeek Censorship Actually Works, 2025.01.31) 오픈소스 가중치를 자체 호스팅하는 경우에는 이 검열이 줄어들지만, 훈련 데이터 자체에서 일부 편향이 남아 있을 수 있다는 점은 확인이 필요합니다.
의료·금융·국방 등 규제 산업에서는 DeepSeek API를 직접 쓰기 전에 데이터 잔류 지역과 컴플라이언스를 별도로 검토해야 합니다. 반면 개인 개발자나 스타트업의 일반 용도에서는 자체 호스팅을 택하면 이 제약을 대부분 피할 수 있습니다.
직접 비교해보니 이 숫자가 보였습니다
공식 요금표와 실측 벤치마크를 교차 분석해서 계산해봤습니다. 100만 토큰 입력 기준(캐시 미스 가정)으로 주요 모델 비용을 비교하면 다음과 같습니다.
| 모델 | 입력 1M (캐시 미스) | 출력 1M | 비고 |
|---|---|---|---|
| DeepSeek V3.2 | $0.28 | $0.42 | 캐시 히트 시 $0.028 |
| GPT-4o | $2.50 | $10.00 | — |
| GPT-5 Nano (OpenAI) | $0.05 | $0.40 | 최저가 라인 |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | 캐시 미적용 |
| Claude Haiku 3.5 | $0.80 | $4.00 | 캐시 $0.08 |
(출처: VentureBeat DeepSeek V3.2-Exp 분석, 2025.09.29 / DeepSeek 공식 API 요금표 / AnotherWrapper 비교 도구, 2026.03 기준)
이 수치가 말하는 것은 DeepSeek V3.2가 “가장 싼” 모델이 아니라는 점입니다. 캐시 미스 입력 기준으로 GPT-5 Nano($0.05)와 Gemini 2.5 Flash-Lite($0.10)는 DeepSeek V3.2($0.28)보다 저렴합니다. DeepSeek V3.2가 진짜 경쟁력을 갖는 구간은 685B 파라미터 수준의 성능을 이 가격에 쓸 수 있다는 점입니다. 소형 모델보다 성능이 확실히 필요한 작업에서 GPT-4o 대비 비용을 90% 줄이면서 비슷한 결과를 낼 수 있다는 게 핵심입니다.
자주 묻는 질문
마치며
DeepSeek V3.2는 분명히 가격 대비 성능이 우수한 모델입니다. 685B 파라미터를 1M 토큰 입력 기준 $0.28(캐시 미스)에 쓸 수 있다는 건 GPT-4o급 성능에서 실질적인 비용 절감이 가능하다는 의미입니다. 다만 막연히 “GPT-4o보다 9배 싸다”는 숫자만 보고 바로 붙이면 예상 비용 계산이 틀어질 수 있습니다.
캐시 히트·미스 구조를 파악하고, 추론 모드 활성화 여부를 확인하고, 실제 사용 시나리오에서 긴 컨텍스트가 필요한지를 먼저 따져본 뒤 쓰는 게 맞습니다. 오픈소스 모델이라 자체 서버 운영도 가능하고 MIT 라이선스라 상업 사용도 자유롭습니다. 결국 DeepSeek V3.2는 “무조건 싼 모델”이 아니라, 제대로 알고 쓰면 가성비가 확실한 모델입니다.
본 포스팅 참고 자료
본 포스팅은 2025년 12월 1일 기준 DeepSeek 공식 자료를 바탕으로 작성됐습니다.
본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있습니다.
API 요금은 DeepSeek 공식 요금 페이지(api-docs.deepseek.com/quick_start/pricing)에서 최신 정보를 반드시 확인하시기 바랍니다.


댓글 남기기