DeepSeek V4 미출시
아키텍처 기준: Engram v1 (arXiv:2601.07372)
DeepSeek V4, 코딩 1위라는데 아직도 안 나온 이유가 있습니다
1조 파라미터 모델이라서 추론 비용이 엄청날 것 같죠? 실제로는 V3보다 활성 파라미터가 더 적습니다. 공식 논문과 Reuters 보도를 교차 검토했더니, 출시 지연의 진짜 이유도 생각과 달랐습니다.
1조 파라미터인데 왜 추론 비용은 V3와 비슷할까요
DeepSeek V4가 처음 등장했을 때 가장 많이 나온 반응이 “1조 파라미터면 감당이 되나?”였습니다. 숫자만 보면 당연한 걱정입니다. GPT-3가 175B였고, GPT-4가 대략 1.7T라는 추정이 돌던 시절을 생각하면 1조 파라미터는 엄청난 규모처럼 들립니다. 그런데 막상 아키텍처를 뜯어보면 이야기가 달라집니다.
DeepSeek V4는 MoE(Mixture-of-Experts) 구조를 씁니다. 토큰 하나를 처리할 때 전체 1조 파라미터가 전부 켜지는 게 아니라, 그 입력에 맞는 전문가 모듈만 선택적으로 활성화됩니다. 실제로 추론 시 활성 파라미터는 약 32B로 추정됩니다. (출처: Emelia.io DeepSeek V4 Guide, 2026.03.10)
💡 공식 논문과 복수의 기술 분석 자료를 함께 놓고 보니 이런 숫자가 나왔습니다.
V3 vs V4 활성 파라미터 비교
| 항목 | DeepSeek V3 | DeepSeek V4 (예상) |
|---|---|---|
| 총 파라미터 | 671B | 약 1T |
| 추론 시 활성 파라미터 | 37B | 32B |
| 컨텍스트 윈도우 | 128K | 1M |
| 훈련 하드웨어 | Nvidia H800 | Huawei Ascend 910C |
| 라이선스 (예정) | MIT | MIT 또는 Apache 2.0 |
(출처: Emelia.io DeepSeek V4 Guide, 2026.03.10 / nxcode.io, 2026.03.12)
총 파라미터는 49% 늘었는데 실제 추론 시 활성 파라미터는 오히려 줄었습니다. 모델이 커질수록 비용도 올라간다는 공식이 MoE 앞에서는 그대로 적용되지 않는 셈입니다. DeepSeek의 MoE 설계는 전문가 풀이 커질수록 각 추론 단계의 계산 부담이 증가하지 않도록 설계되어 있고, V4는 이 원칙을 V3보다 한 단계 더 밀어붙였습니다.
Engram 논문이 말하는 것: 코딩보다 추론에서 더 컸습니다
DeepSeek V4의 핵심 기술 중 하나가 Engram 메모리 아키텍처입니다. 2026년 1월 12일 DeepSeek 연구팀이 arXiv에 공개한 논문(arXiv:2601.07372)에 직접 나와 있는 내용이고, 저자 목록에는 DeepSeek 창업자 Wenfeng Liang도 포함되어 있습니다.
Engram은 간단히 말하면 LLM이 “사실을 기억하는 일”과 “추론하는 일”을 분리하는 구조입니다. 기존 트랜스포머 모델은 MMLU처럼 지식을 묻는 문제와 BBH처럼 복잡한 추론을 요구하는 문제를 똑같은 파라미터로 처리합니다. Engram은 N-그램 기반의 정적 메모리 룩업 테이블을 별도로 두어 단순 지식 검색을 O(1) 연산으로 처리하고, 남은 컴퓨팅 자원을 복잡한 추론에 집중시킵니다.
💡 논문 원문 수치를 직접 꺼내 보니, 코딩이 아닌 추론 쪽에서 폭이 더 넓었습니다.
| 벤치마크 | 분류 | Engram 적용 시 향상폭 |
|---|---|---|
| BBH | 일반 추론 | +5.0 |
| ARC-Challenge | 일반 추론 | +3.7 |
| MMLU | 지식 검색 | +3.4 |
| CMMLU (중국어) | 지식 검색 | +4.0 |
| HumanEval | 코딩 | +3.0 |
| Multi-Query NIAH (롱컨텍스트) | 장문 검색 | 84.2 → 97.0 |
(출처: arXiv:2601.07372, 2026.01.12, DeepSeek 공식 논문)
DeepSeek V4가 “코딩 특화 모델”로 소개됐지만, 실제 논문에서 가장 큰 성능 향상은 BBH +5.0으로 일반 추론 영역에서 나왔습니다. 코딩(HumanEval) 향상폭 +3.0보다 1.67배 큽니다. Engram이 단순 정보 검색 부담을 덜어내면서 모델이 추론에 더 많은 컴퓨팅을 쓸 수 있게 되었기 때문이라고 논문 저자들은 설명합니다. 코딩 외 작업에서도 V4가 기대 이상일 수 있다는 신호입니다.
1M 컨텍스트, 이미 API에 조용히 켜져 있었습니다
V4의 공식 출시 전에 이미 일부 기능이 조용히 풀렸다는 사실은 잘 알려지지 않았습니다. 2026년 2월 11일, DeepSeek는 별도 공지 없이 웹 서비스와 API의 컨텍스트 윈도우를 128K에서 1M 토큰으로 확장했습니다. (출처: Evolink AI, 2026.03.23 업데이트 기준)
단, 웹 UI 쪽에서는 확장이 확인됐지만, DeepSeek 공식 API 문서(api-docs.deepseek.com)에서는 2026년 3월 23일 기준으로 현재 공개 API 모델에 1M 컨텍스트 한도가 명시되어 있지 않습니다. 웹과 API 사이의 차이가 있으므로, 실제 프로덕션 파이프라인에서 1M 컨텍스트를 쓸 계획이라면 공식 API 문서를 직접 확인하는 게 필요합니다.
1M 토큰이 실제로 어느 정도 분량인지 감이 잘 안 잡힌다면 이렇게 보면 됩니다. 한국어 기준 평균 2,000자 내외 문서 기준으로 약 500편을 한 번의 쿼리에 담을 수 있습니다. 코드 베이스로 치면 중규모 프로젝트 전체 파일을 한꺼번에 넣을 수 있는 규모입니다. 다만 컨텍스트가 길다고 항상 정확도가 보장되는 건 아닙니다. Engram이 이 문제를 얼마나 풀었는지가 관건인데, 논문에서 Multi-Query NIAH 97.0% 달성이 바로 그 근거입니다. 표준 어텐션의 84.2%와 비교하면 의미 있는 차이입니다.
5번의 출시 예정일이 모두 빗나간 이유
결론부터 말씀드리면, DeepSeek가 직접 출시 날짜를 공표한 적이 한 번도 없습니다. “2월 출시”는 The Information이 익명의 내부 관계자를 인용해 보도한 것이고, Reuters가 이를 인용하면서 넓게 퍼진 겁니다. (출처: Reuters, 2026.01.09)
그 이후 “2월 중순(설날)”, “2월 23일”, “3월 3일” 등의 예측이 커뮤니티에서 계속 나왔지만 모두 빗나갔고, 3월 23일 현재까지도 공식 출시는 없습니다. 3월 18일 Reuters 보도에서는 중국 언론을 인용해 4월 출시 가능성이 언급됐습니다. (출처: Reuters via Investing.com, 2026.03.18)
💡 Hunter Alpha 사건을 시간순으로 짚어보니 지연 이유가 달리 보였습니다.
출시 지연 주요 타임라인
- 2026.01.09 — Reuters, “DeepSeek V4 2월 출시 예정” 보도 (The Information 인용)
- 2026.01.12 — Engram 논문 공개 (arXiv:2601.07372, 저자: Wenfeng Liang 외)
- 2026.02.11 — DeepSeek, 공지 없이 웹 컨텍스트 윈도우 1M 토큰으로 확장
- 2026.02.17 — 설날 출시 예정 → 출시 없음 (Alibaba·ByteDance는 모델 공개)
- 2026.03.05 — OpenAI GPT-5.4 출시
- 2026.03.09 — “DeepSeek V4 Lite” 라벨이 웹사이트에 잠깐 노출됐다는 보고
- 2026.03.11 — “Hunter Alpha” 익명 모델 OpenRouter 등장 → V4라는 추측 확산
- 2026.03.18 — Reuters, Hunter Alpha는 샤오미 MiMo-V2-Pro임 확인
- 2026.03.23 — V4 공식 API 미등재 상태 유지 중
지연 이유로 여러 가능성이 거론됩니다. Huawei Ascend 칩 기반 훈련의 엔지니어링 난도, GPT-5.4 출시 후 벤치마크 재조정 필요성, 중국 AI 규제 검토 등입니다. DeepSeek는 공식 입장을 내놓지 않았습니다. 한 가지 분명한 건, Hunter Alpha가 V4가 아닌 것으로 확인되면서 4월 이전 출시 가능성이 상당히 낮아졌다는 점입니다.
벤치마크 숫자, 지금 믿으면 손해입니다
커뮤니티에 도는 DeepSeek V4 벤치마크는 전부 내부 유출 수치입니다. HumanEval 90%, SWE-bench Verified 80% 이상이라는 숫자가 많이 인용되는데, 독립 기관의 검증을 거치지 않았습니다. (출처: evolink.ai, 2026.03.23 업데이트)
특히 SWE-bench Verified 80% 이상 주장은 V3의 약 49%에서 한 세대 만에 31%포인트 이상 뛰는 수치입니다. 이 폭의 점프는 기술적으로 불가능한 건 아니지만, 1M 컨텍스트로 레포지토리 전체를 읽을 수 있게 된 구조 변화가 SWE-bench에서 실제로 얼마나 유리하게 작용하는지에 달려 있습니다. 벤치마크 구성 방식이 “최적 조건”으로 세팅됐을 가능성도 있습니다.
⚠️ 실제로 비교해볼 수 있는 수치 기준
현재 SWE-bench Verified 공식 리더보드 최고 기록은 Claude Opus 4.5 기준 80.9%입니다. V4 유출 수치가 이를 초과한다고 주장하지만, 독립 평가가 나올 때까지는 해당 수치를 의사결정 근거로 쓰지 않는 게 안전합니다. 3월 23일 현재 LMSYS·BigCode 등 독립 평가 기관의 V4 관련 발표는 없습니다.
V4가 출시되면 직접 검증할 수 있는 방법이 있습니다. 본인이 실제로 쓰는 코드 작업 유형으로 직접 테스트하는 것이 벤치마크 숫자보다 훨씬 실질적입니다. SWE-bench 점수가 높다고 해서 특정 프레임워크나 레거시 코드에서의 작동이 보장되진 않으니까요.
Nvidia 없이 훈련한다는 게 실제로 무엇을 바꾸나
DeepSeek V4 훈련에 Huawei Ascend 910C 칩이 쓰인다는 건 단순한 하드웨어 뉴스가 아닙니다. 2026년 2월 27일 Reuters는 단독 보도로 DeepSeek가 차세대 플래그십 모델의 미리보기 접근 권한을 Huawei 등 중국 칩 공급사에는 제공했지만 Nvidia와 AMD에는 제공하지 않았다고 전했습니다. (출처: Reuters via Investing.com, 2026.02.27)
이게 개발자 입장에서 의미 있는 이유가 있습니다. CUDA 기반 생태계에 익숙한 팀이라면 Ascend 칩 환경에서 V4를 자체 호스팅할 때 호환성 문제를 겪을 수 있습니다. Nvidia GPU로 양자화 추론을 실행하는 건 가능하지만(INT4 기준 RTX 5090 32GB VRAM 예상), Ascend 최적화 경로는 별도 설정이 필요할 수 있습니다.
동시에 이 선택은 미국 반도체 수출 규제를 우회한 중국 AI 개발의 실증 사례로 기록될 수 있습니다. Nvidia H800(H100 수출 제한 버전)을 쓴 V3도 이미 업계 탑티어 성능을 냈는데, V4가 완전히 Huawei 칩으로 훈련되어 그 성능 수준을 유지하거나 뛰어넘는다면 “Nvidia 없이는 프론티어 AI 불가”라는 전제가 흔들리게 됩니다.
지금 당장 할 수 있는 것과 없는 것
V4 출시를 기다리는 사이에 실제로 준비할 수 있는 것과 지금은 불가능한 것을 정리했습니다.
✅ 지금 할 수 있는 것
- DeepSeek 공식 채널(X: @deepseek_ai, GitHub: deepseek-ai)을 팔로우해 공식 발표 즉시 확인하기
- 현재 DeepSeek V3 API를 써보면서 응답 포맷·tool calling 동작 방식에 익숙해지기
- V4를 자체 호스팅할 계획이라면 최소 사양(INT4 양자화 기준 RTX 5090 32GB VRAM 1장, 또는 RTX 4090 2장) 하드웨어 확인하기
- 본인 프로젝트 기준의 평가 세트 만들기 — 실제 버그 티켓, 멀티파일 리팩토링 등
❌ 지금은 불가능한 것
- V4 API를 프로덕션에 연결하기 (공식 모델 ID 미발표)
- 1M 컨텍스트를 API에서 바로 쓰기 (공식 API 문서에 미반영)
- 유출 벤치마크를 근거로 현재 스택 교체 결정하기 (미검증)
- V4 멀티모달 기능 사용하기 (공개 데모 없음)
솔직히 말하면, 지금 시점에서 V4에 대해 “확정”이라고 쓸 수 있는 정보는 공식 arXiv 논문(Engram 아키텍처)과 Reuters 보도(코딩 특화, 2월 출시 계획이었음)가 거의 전부입니다. 나머지는 유출이거나 커뮤니티 추측입니다. 기대치 조절이 필요합니다.
자주 묻는 질문
마치며
DeepSeek V4는 출시 전부터 가장 많이 기다려지는 모델 중 하나인데, 이 기대의 상당 부분이 공식 발표가 아닌 유출과 추측 위에 세워져 있습니다. 확실한 것만 추리면 이렇습니다. 공식 논문으로 존재가 확인된 Engram 아키텍처, Reuters가 전한 코딩 특화 목표, 그리고 이미 2월에 조용히 확장된 1M 컨텍스트 윈도우. 이 세 가지가 V4의 윤곽을 가장 신뢰도 높게 보여주는 데이터입니다.
개인적으로 가장 흥미로운 부분은 1조 파라미터인데 실제 추론 활성 파라미터는 V3보다 적다는 설계 방향입니다. 규모와 효율을 동시에 챙기는 방식이 성공한다면, 이후 모델 설계의 기준이 바뀔 수 있습니다. 그리고 Engram이 코딩보다 일반 추론에서 더 큰 성능 향상을 냈다는 논문 수치는, “V4는 코딩 모델”이라는 프레임이 실제보다 좁게 붙여진 이름일 수 있다는 생각을 하게 만듭니다.
4월 출시 가능성이 가장 높은 시나리오로 보이지만, DeepSeek는 지금껏 직접 날짜를 말한 적이 없습니다. 출시 알림은 커뮤니티 소문보다 공식 채널을 기준으로 잡는 것이 현명합니다.
본 포스팅 참고 자료
- DeepSeek Engram 공식 논문 — arXiv:2601.07372 (2026.01.12)
- Reuters — DeepSeek to launch new AI model focused on coding in February (2026.01.09)
- DeepSeek 공식 API 문서 — api-docs.deepseek.com
- DeepSeek Engram GitHub — github.com/deepseek-ai/Engram
- nxcode.io — DeepSeek V4: Everything We Know — Specs, Benchmarks & Release Status (2026.03.12)
- Evolink AI — DeepSeek V4 Release Date Tracker, 2026.03.23 업데이트
- Reuters via Investing.com — Hunter Alpha = Xiaomi MiMo-V2-Pro 확인 보도 (2026.03.18)
본 포스팅은 2026년 3월 23일 기준으로 작성됐습니다. 서비스 정책·스펙·출시 일정은 DeepSeek 공식 발표에 따라 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 벤치마크 수치는 독립 검증 전까지 참고 자료로만 활용하시기 바랍니다.







댓글 남기기