DeepSeek V4 / V4 Lite
아직 미출시
DeepSeek V4, 아직 안 나온 진짜 이유가 있습니다
2월 17일 설날 출시 예고 → 3월 3일 → 3월 5일 → 3월 9일 → 그리고 지금도 공식 출시 없음. 기다리고 있는 분들을 위해, 유출 스펙과 실제 지연 원인, V4 Lite 상황까지 한번에 정리했습니다.
출시 지연, 이번만이 아닙니다 — DeepSeek의 반복 패턴
솔직히 말하면, 이번 지연이 처음인 사람처럼 반응하는 게 이상합니다. DeepSeek은 역대 모든 주요 모델에서 비슷한 패턴을 반복했습니다. R1은 2024년 12월 예고 이후 2025년 1월 20일에야 나왔고, DeepSeek-R2는 2025년 5월 예상이었는데 결국 R1-0528 업데이트로 대체돼 출시 자체가 취소됐습니다. V3.1도 ‘2025년 초여름 예상’에서 8월 21일로 밀렸습니다. (출처: Reddit r/DeepSeek, 2026.03.02 릴리스 트래커 스레드)
| 모델 | 예상 출시 | 실제 출시 | 지연 |
|---|---|---|---|
| DeepSeek-R1 | 2024년 12월 | 2025년 1월 20일 | 약 4~8주 |
| DeepSeek-R2 | 2025년 5월 | 출시 취소 | — |
| DeepSeek-V3.1 | 2025년 초여름 | 2025년 8월 21일 | 수개월 |
| DeepSeek-V3.2 | 2025년 가을 | 2025년 12월 1일 | 수주 |
| DeepSeek-V4 | 2026년 2월 17일 | 2026.03.22 현재 미출시 | 5주+ 진행 중 |
R2처럼 취소될 수도 있다는 전망도 일부 있지만, 현재로서는 중국 정부가 DeepSeek V4를 너무 많이 ‘예고 홍보’해놓은 상황이라 그냥 묻기가 어려운 상태입니다. BYD 행사에서도 파트너로 언급됐고, 중국 공산당 전국인민대표대회(两会) 주요 의제에도 AI 모델로 지목됐습니다.
진짜 막힌 곳은 ‘하드웨어 정치’입니다
대부분의 글에서 “기능 완성도 문제”로 설명하지만, Reddit r/DeepSeek 스레드(2026.03.07 업데이트)에 올라온 내부 소식은 다른 걸 지목합니다. V4는 훈련은 엔비디아 H800 GPU로 끝났는데, 중국 정부가 “중국산 하드웨어에서 구동되지 않으면 출시 불가”를 요구했다는 게 핵심입니다. 화웨이 Ascend와 Cambricon 칩에서의 추론 성능이 엔비디아 대비 약 80% 수준밖에 안 나온다는 게 병목입니다.
💡 공식 API 문서와 출시 타임라인을 나란히 놓고 보니 이런 흐름이 보였습니다 — 3월 9일 DeepSeek 웹사이트에 “V4 Lite” 라벨이 조용히 등장했습니다. 이 시점이 화웨이 Ascend 910C 최적화가 완료된 것으로 알려진 날짜와 맞물립니다. (출처: nxcode.io DeepSeek V4 릴리스 트래커, 2026.03.12)
추가로, Reuters가 2026년 2월 25일 보도한 내용에 따르면 DeepSeek은 Nvidia와 AMD의 V4 모델 접근을 의도적으로 차단하고 화웨이·Cambricon에만 조기 접근권을 줬습니다. 오픈소스 커뮤니티 입장에서는 엔비디아 GPU 사용자가 출시 직후 최적 성능을 못 낼 가능성이 생기는 대목입니다.
1조 파라미터가 V3.2보다 싸게 나올 수 있는 이유
직관적으로는 말이 안 됩니다. 크기가 50% 넘게 커진 모델이 더 저렴하다고요? 막상 들여다보면 됩니다. MoE(Mixture-of-Experts) 구조의 핵심은 전체 파라미터를 다 쓰지 않는다는 점입니다. V3.2가 토큰당 약 37B 파라미터를 활성화했다면, V4 유출 스펙에는 토큰당 활성 파라미터가 오히려 줄어든 약 32B입니다. 총 규모는 커졌지만, 실제 추론에 드는 연산량은 줄었습니다. (출처: Reddit r/DeepSeek 릴리스 트래커, 2026.03.02)
| 모델 | 총 파라미터 | 토큰당 활성 | 입력 1M 토큰 가격 |
|---|---|---|---|
| DeepSeek V3.2 | 671~685B | 약 37B | $0.28 (공식) |
| DeepSeek V4 (유출) | ~1T (1조) | 약 32B ↓ | ~$0.14 (추정) |
| Claude Opus 4.6 | — | — | $5.00 (공식) |
| Gemini 3.1 Pro | — | — | $2.00 (공식) |
추정 가격이 사실이라면, V4는 Claude Opus 4.6보다 입력 기준 36배 저렴하고 출력 기준으로는 89배 저렴한 셈입니다. 물론 이 수치는 유출 기반이라 공식 발표 전까지는 추정입니다. 다만 ‘더 크면 더 비싸다’는 전제 자체가 MoE 구조에서는 성립하지 않는다는 점은 공식 V3.2 대비 수치로 직접 확인할 수 있습니다. (출처: DeepSeek 공식 API 가격 문서, api-docs.deepseek.com/quick_start/pricing)
Engram이 ‘긴 대화 기억’이라고요? 공식 논문은 달리 말합니다
가장 많이 퍼진 오해 중 하나가 “Engram = 무한 컨텍스트 메모리”입니다. 2026년 1월 13일 공개된 arXiv 논문(arXiv:2601.07372)을 직접 보면 다릅니다. Engram은 정적 지식을 DRAM에서 O(1) 해시 조회로 불러오는 구조입니다. 즉, 모델 가중치에 굳어진 사실 정보를 GPU 연산 없이 꺼내오는 방식이지, 대화 이력이나 동적 컨텍스트를 기억하는 게 아닙니다.
💡 공식 논문 원문과 커뮤니티 해설을 교차해서 읽어보니 이 차이가 보였습니다 — Engram은 연산의 약 25%를 정적 지식 조회로 오프로드합니다. 나머지 75%가 실제 추론 연산입니다. 그래서 GPU 연산이 줄고 비용이 낮아지는 구조이지, “더 오래 기억하는” 기능이 아닙니다. (출처: arXiv:2601.07372, 2026.01.13)
긴 컨텍스트 처리는 Engram이 아니라 DSA(DeepSeek Sparse Attention)가 담당합니다. V3.2-Exp에서 처음 적용됐고, V4에서는 “DSA Lightning Indexer”로 확장됩니다. 1M 토큰 처리 시 기존 대비 연산량 약 50%를 절감한다고 알려져 있습니다. Reddit r/DeepSeek에서 벌어진 Engram 논쟁을 보면, 이 둘을 혼동한 글이 실제로 상당히 많습니다.
| 기능 | Engram | DSA Lightning |
|---|---|---|
| 역할 | 정적 지식 조회 (O(1) DRAM) | 긴 컨텍스트 처리 (Sparse Attention) |
| 효과 | GPU 연산 25% 절감 | 1M 토큰 처리 시 연산 ~50% 절감 |
| 대화 기억? | ❌ 아님 | 컨텍스트 처리 효율화 |
| 검증 상태 | arXiv 논문 공개 | V3.2-Exp에서 실적용 확인 |
V4 Lite 먼저 나옵니다 — 알려진 스펙과 실제 한계
3월 9일 DeepSeek 웹사이트에 조용히 등장했다가 사라진 “V4 Lite” 라벨. 36kr와 AIBase 보도에 따르면 코드명은 “sealion-lite”이고, 현재 인퍼런스 프로바이더들이 NDA 하에 테스트 중입니다. 알려진 스펙은 총 파라미터 약 200B, 1M 토큰 컨텍스트 네이티브 지원, 멀티모달(이미지 이해) 포함입니다. 코드 최적화와 시각적 정확도에서 V3.2 Thinking 모드를 비사고(Non-Thinking) 모드로 능가한다는 내부 평가도 있습니다.
V4 Lite에 빠진 것들
36kr 보도를 기준으로, Engram 메모리 아키텍처는 V4 Lite에 포함되지 않습니다. 핵심 아키텍처 혁신을 담은 플래그십 V4를 기다리는 개발자라면, Lite는 어디까지나 ‘전초전’으로 봐야 합니다. 한 가지 더 주의할 점은 화웨이 Ascend 최적화 문제가 Lite에도 그대로 적용된다는 점입니다. 엔비디아 GPU 환경에서는 성능이 플래그십 대비 최대 20% 낮을 수 있습니다.
💡 일반적으로 Lite 버전은 플래그십의 축소판으로 나오지만, DeepSeek V4 Lite는 출시 순서가 반대입니다. 플래그십보다 먼저 나오는 이유는 하드웨어 최적화 부담이 200B 규모에서 1T 규모보다 훨씬 작기 때문입니다. 제품 전략이 아니라 인프라 제약이 순서를 바꿨습니다.
유출 벤치마크, 어디까지 믿어야 하나
X(구 트위터)에 돌아다니는 “SWE-bench 83.7%” 그래픽은 이미 Epoch AI·FrontierMath 팀에서 가짜로 확인됐습니다. 그보다 더 자주 언급되는 수치가 HumanEval 90%, SWE-bench Verified 80% 이상입니다. 이 수치가 의미 있는 이유는 비교 대상 때문입니다. 현재 SWE-bench Verified 1위는 Claude Opus 4.6의 80.8%고, DeepSeek V3.2가 약 73.1%입니다. (출처: HumAI Benchmark Leaks, 2026.02)
| 벤치마크 | V4 (유출) | V3.2 (공식) | Claude Opus 4.6 | GPT-5.3 Codex |
|---|---|---|---|---|
| HumanEval | ~90% | — | ~88% | ~93% |
| SWE-bench Verified | >80% | ~73.1% | 80.8% | ~80% |
| MMLU-Pro | 미공개 | 85.0% | 85.8% | — |
| Needle-in-Haystack (1M) | 97% (Engram) | — | — | — |
V3에서 V4로 넘어오면서 SWE-bench 점수가 약 49%에서 80% 이상으로 뛰는 주장인데, 단일 세대 모델에서 이 정도 점프는 드물어서 독립 검증 전까지는 목표 수치로 보는 게 맞습니다. nxcode.io는 Engram 메모리로 인한 DSA 처리 효율화, 확장된 코드 학습 데이터를 가능한 이유로 꼽습니다. 숫자 자체보다 근거 구조를 보는 게 더 유효합니다.
지금 이 시점에 실제로 해야 할 것들
3월 11일 HuggingFace에 V4-INT8 가중치 샤드가 업로드되는 장면이 중국 양자화 전문가 계정을 통해 목격됐습니다. 역대 V3, R1 출시 때도 공식 출시 당일 커뮤니티 양자화 파일이 올라왔습니다. 이 패턴을 고려하면, 출시가 임박했다는 신호가 지금이 가장 강합니다. 그렇다면 지금 할 일은 이렇습니다.
🔧 지금 당장 할 수 있는 것
- 공식 채널 팔로우 — deepseek-ai GitHub 레포지터리와 공식 X 계정만 구독하면 됩니다. 루머 계정은 노이즈만 늘어납니다.
- 로컬 실행 계획이 있다면 — INT4 양자화 기준 RTX 5090(32GB VRAM) 1장, INT8 기준 RTX 4090 2장이 필요합니다. Lite 버전은 그보다 낮은 사양으로 가능합니다. (출처: nxcode.io, 2026.03.12)
- 평가 기준 미리 잡아두기 — 가중치가 공개되면 내 실제 워크플로에서 바로 돌려볼 과제를 미리 정해두는 게, 벤치마크 숫자 기다리는 것보다 훨씬 빠릅니다.
- V3.2로 지금 시작하기 — 현재 공식 API에서 deepseek-chat(V3.2)과 deepseek-reasoner(V3.2 Thinking)는 128K 컨텍스트로 즉시 사용 가능합니다. 입력 캐시 히트 기준 $0.028/1M 토큰입니다. (출처: DeepSeek 공식 API 가격 문서)
기다리면서 소비하는 에너지가 아깝다면, 지금 V3.2로 작업하면서 V4 출시를 자연스럽게 맞이하는 게 현실적인 선택입니다. 막상 출시 당일은 서버가 터지는 상황도 R1 때 이미 경험했습니다.
Q&A — 자주 묻는 것들
Q. DeepSeek V4 출시일이 언제인가요?
▾
Q. V4 Lite와 V4 플래그십의 차이가 뭔가요?
▾
Q. Engram 메모리가 뭔가요? 긴 대화를 기억하는 건가요?
▾
Q. 로컬에서 V4를 실행하려면 GPU가 얼마나 필요한가요?
▾
Q. DeepSeek V4가 이미지·동영상도 생성하나요?
▾
마치며 — 기다림보다 준비가 낫습니다
DeepSeek V4를 둘러싼 글들의 대부분이 “출시가 임박했다” 또는 “언제 나온다”에 집중합니다. 그런데 막상 중요한 건 출시일보다 아키텍처 이해입니다. 1조 파라미터가 V3.2보다 저렴할 수 있다는 구조적 이유, Engram이 실제로 하는 일, 화웨이 하드웨어 병목이 왜 게임체인저인지를 알고 출시 당일을 맞이하는 게 훨씬 유리합니다.
솔직히 말하면, 가중치가 공개돼도 처음 며칠은 서버 문제와 미최적화 때문에 제대로 쓰기 어렵습니다. R1 때도 그랬습니다. 출시 직후 흥분으로 쓰는 것보다, 지금 V3.2로 작업 흐름을 익히고 V4 출시 후 냉정하게 비교 테스트하는 게 실전에서 더 씁니다.
핵심 정리: V4는 크기가 커졌지만 추론 비용은 낮아질 수 있고, Engram은 기억 기능이 아니라 연산 절감 메커니즘이며, 지연의 진짜 원인은 화웨이 최적화 요구입니다. 이 셋만 알아도 앞으로 나올 발표를 제대로 읽을 수 있습니다.
본 포스팅 참고 자료
- DeepSeek 공식 API 가격 문서 — api-docs.deepseek.com
- DeepSeek-V3.2 공식 출시 노트 — api-docs.deepseek.com
- DeepSeek Wikipedia — 모델 릴리스 히스토리
- nxcode.io — DeepSeek V4 스펙·벤치마크 정리 (2026.03.12)
- Reddit r/DeepSeek — V4 유출 정보 종합 스레드 (2026.03.02~11)
- arXiv:2601.07372 — Engram Conditional Memory 공식 논문 (2026.01.13)
본 포스팅은 2026년 3월 22일 기준 공개된 자료를 바탕으로 작성됐습니다. DeepSeek V4 관련 유출 스펙은 공식 발표 전 내용으로 실제 출시 스펙과 다를 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 투자·구매 결정의 근거로 사용 시 공식 채널을 반드시 확인하세요.







댓글 남기기