DeepSeek V4, 3가지 수치로 진짜 실력 확인했습니다

Published on

in

DeepSeek V4, 3가지 수치로 진짜 실력 확인했습니다

2026.03.27 기준
DeepSeek V4 미출시 / V4 Lite 3.9 등장
공식 논문 arXiv:2601.07372 기준

DeepSeek V4, 3가지 수치로
진짜 실력 확인했습니다

모두가 “곧 나온다”고 했던 DeepSeek V4, 지금 이 순간까지 공식 출시는 없습니다.
그런데 공식 논문 3편에는 이미 핵심 수치가 전부 담겨 있습니다.
루머가 아닌 arXiv 논문과 DeepSeek V3 기술 보고서를 직접 뜯어봤습니다.

1조
예상 파라미터(총량)
BBH +5.0
추론 벤치 향상폭(공식 논문)
$5.6M
V3 전체 훈련비용(DeepSeek 공식)

V4는 왜 아직 안 나왔을까 — 3월 현재 상황

2026년 2월 중순(춘절 연휴), 3월 3일(정월 대보름), 3월 초순까지 총 세 차례
유력 출시 일자가 거론됐지만 전부 지나쳤습니다.
kili-technology의 편집자 노트(2026년 3월 중순 기준)는 “공식 출시 없음”을 명시했고,
3월 9일 DeepSeek 플랫폼에 ‘V4 Lite’가 잠깐 등장했다 사라진 것이 현재까지
가장 구체적인 신호입니다.
(출처: kili-technology.com, 2026.03.23)

Dataconomy가 중국 테크 매체 Whale Lab을 인용해 보도한 내용에 따르면
V4의 정식 출시 시점은 2026년 4월로 밀려났습니다.
(출처: dataconomy.com, 2026.03.16)
로이터와 파이낸셜타임스가 각각 “이번 주 출시”를 보도한 날짜가 이미 세 번 넘게
틀린 셈이라, 현재는 4월 출시설이 가장 신뢰도 있는 전망으로 꼽힙니다.

“V4 Lite”의 등장이 흥미로운 이유가 있습니다.
DeepSeek의 V3 출시 패턴을 보면 스테이징(점진적 배포) 방식을 택했는데,
Lite 버전이 플랫폼에 등장했다는 건 풀 모델의 기반 인프라가 사실상 완성 단계에
진입했음을 시사합니다. 출시가 ‘미완성’이라서 늦는 게 아니라
타이밍 조율 중일 가능성이 높습니다.

▲ 목차로 돌아가기

V4 핵심 기술 3가지 — 공식 논문에서 직접 확인

V4의 공식 스펙은 아직 없습니다. 대신 DeepSeek 연구진이 2025년 12월부터
2026년 1월 사이 arXiv에 올린 논문 3편이 사실상의 설계도 역할을 합니다.
CEO 량원펑(梁文锋)이 직접 논문을 arXiv에 업로드했다는 점이 의도적 공개 신호라는
분석이 지배적입니다.
(South China Morning Post, 2026.01)

💡 공식 논문과 플랫폼 변경 사항을 같이 놓고 보니 이런 차이가 보였습니다

세 논문의 저자 목록에는 공통적으로 CEO와 핵심 연구진이 포함돼 있습니다.
일반적으로 탐색적 연구는 수석 연구원 단독으로 올리지만,
CEO가 직접 올리는 논문은 제품 로드맵과 연결된 신호로 읽는 게 맞습니다.

① Engram — 지식을 ‘계산’ 말고 ‘조회’로 처리

arXiv:2601.07372에 공개된 Engram 논문은 트랜스포머가 사실 정보를
연산으로 처리하던 방식을 O(1) 해시 조회로 대체하는 구조를 제안합니다.
“파리의 수도는 어디인가” 같은 정적 지식은 GPU 연산 없이 메모리 테이블에서
바로 꺼내고, 복잡한 추론만 MoE 신경망이 맡는 방식입니다.
(출처: arXiv:2601.07372, 2026.01.12)
메모리 테이블은 CPU RAM에 올려도 지연시간 손실이 3% 미만이라고 논문은 밝히고 있습니다.

② mHC — 1조 파라미터 훈련을 안정적으로 만드는 장치

arXiv:2512.24880에 실린 매니폴드 제한 하이퍼커넥션(mHC) 논문은
훈련 중 신호 증폭 문제를 해결합니다. 기존 Hyper-Connection 방식이
신호를 최대 3,000배까지 증폭시켜 훈련이 발산하는 문제를 일으켰는데,
mHC는 Sinkhorn-Knopp 알고리즘을 써서 증폭을 2배 이하로 묶습니다.
(출처: arXiv:2512.24880, 2025.12)
훈련 시간 오버헤드는 6.7% 수준으로, 1조 파라미터 훈련이 중간에 터지는
최악의 사태를 막는 보험에 해당합니다.

③ DeepSeek Sparse Attention — 100만 토큰 컨텍스트를 절반 비용으로

FlashMLA 코드 저장소 실수 유출에서 발견된 ‘MODEL1’ 참조를 분석한 결과,
희소 어텐션 메커니즘이 장문 컨텍스트 처리 비용을 약 50% 줄입니다.
예상 컨텍스트 창 100만 토큰을 실제로 쓸 수 있게 해주는 장치입니다.

▲ 목차로 돌아가기

지식보다 추론이 더 올랐습니다 — Engram의 반전

Engram을 보는 대부분의 시선은 “지식 정확도 향상”에 맞춰져 있습니다.
메모리 테이블이 사실 정보를 더 잘 저장하니까 MMLU 같은 지식 벤치마크가
올라갈 거라고 기대하는 게 자연스럽습니다.
그런데 Engram 논문이 제시한 수치를 직접 보면 예상이 빗나갑니다.

벤치마크 MoE 기준선 Engram 적용 향상폭
MMLU (지식) 기준 +3.4 +3.4
CMMLU (지식·중국어) 기준 +4.0 +4.0
BBH (추론) 기준 +5.0 +5.0 ★
HumanEval (코딩) 기준 +3.0 +3.0
Multi-Query NIAH (장문 검색) 84.2 97.0 +12.8 ★★

출처: arXiv:2601.07372 (Engram-27B, iso-parameter iso-FLOPs MoE 대비)

지식 벤치마크(MMLU +3.4)보다 추론 벤치마크(BBH +5.0)가 더 크게 올랐습니다.
이유는 구조적입니다. 정적 지식이 메모리 테이블로 빠지면서
초기 레이어가 패턴 재구성 작업에서 해방되고,
그 여유 연산이 추론 체인을 더 깊게 처리하는 데 쓰입니다.
메모리를 추가했는데 메모리 정확도보다 추론 정확도가 더 오른 셈입니다.

💡 Engram-27B 수치를 V4(1조 파라미터)에 그대로 적용하면 안 됩니다

Engram 논문 자체가 “27B·40B 스케일에서만 검증됐다”고 명시하고 있습니다.
1조 파라미터 스케일에서 U자형 스케일링 법칙이 똑같이 성립할지는
공식적으로 미확인 상태입니다. 벤치마크 수치를 인용할 때는
이 조건을 함께 확인해야 합니다.

▲ 목차로 돌아가기

$5.6M으로 Claude 수준, 이게 가능한 이유

DeepSeek V3의 전체 훈련비용은 공식 기술 보고서 기준 560만 달러(약 77억 원)입니다.
(출처: DeepSeek V3 Technical Report, arXiv:2412.19437)
비슷한 성능의 클로즈드 소스 모델 훈련에는 통상 1억 달러 이상이 들어간다고
업계는 추산합니다. 18배 차이가 나는 셈입니다.
이것만 놓고 보면 “DeepSeek가 데이터나 컴퓨팅을 훨씬 적게 쓴다”고 읽히지만,
실제 이유는 다릅니다.

V3 훈련 데이터는 14.8조 토큰, 전체 파라미터는 671B입니다.
그런데 추론 시 활성화되는 파라미터는 371억 개뿐입니다.
나머지는 켜지지 않습니다. MoE(Mixture-of-Experts) 구조 덕분에
같은 GPU 시간으로 효율이 극대화됩니다.
여기에 DualPipe 스케줄링으로 노드 간 통신 병목을 제거했고,
Multi-Token Prediction 기법으로 추가 훈련 데이터 없이
학습 신호를 1.8배 늘렸습니다.
(출처: DeepSeek V3 Technical Report)

결론적으로 DeepSeek는 “덜 쓴” 게 아니라 “다르게 쓴” 겁니다.
API 가격에서도 이 차이가 드러납니다.
NxCode 분석 기준 DeepSeek V3 API는 입력 토큰 100만 개당 약 $0.27이고,
Claude Opus 기준으로는 약 50배 이상 비쌉니다.
(출처: NxCode, 2026.03 기준 추정)
성능이 비슷한데 비용 차이가 50배라는 건,
기업 입장에서 선택지가 명확해진다는 의미입니다.

▲ 목차로 돌아가기

오픈웨이트의 함정 — 무료인데 왜 비쌀 수 있나

DeepSeek는 V3부터 주요 모델을 오픈웨이트로 공개해왔고 V4도 동일 방식이
유력합니다. 여기서 대부분이 놓치는 지점이 있습니다.
“모델 가중치가 무료면 배포 비용도 제로” 같은 논리입니다.

V4의 예상 총 파라미터는 1조 개입니다.
FP16 기준으로는 2TB VRAM이 필요합니다.
현실적으로 양자화(INT4)를 쓰면 약 500GB까지 줄일 수 있지만,
이 규모를 자체 서버에서 돌리려면 적어도 NVIDIA RTX 4090 두 장이나
RTX 5090 한 장이 필요하다고 분석됩니다.
(출처: WaveSpeedAI 분석, 2026.03)
GPU 가격을 감안하면 초기 구축 비용만 수천만 원 대입니다.

가중치가 공개된 순간, 경쟁 우위는 모델 자체에서 벗어납니다.
Engram 구조에서 지식 메모리 테이블에 어떤 데이터를 넣느냐,
추론 경로에 어떤 파인튜닝 데이터를 쓰느냐가 서비스 품질을 결정합니다.
기업 입장에서는 가중치가 아니라 파인튜닝 데이터셋 구축이 실질 비용입니다.
이 데이터는 비공개이고, 비쌉니다.

💡 오픈웨이트는 시작점이지 끝이 아닙니다

Engram 구조가 적용되면 지식 경로와 추론 경로 두 곳 모두 별도의
전문가 검증 데이터가 필요합니다.
같은 모델을 써도 파인튜닝 데이터 품질 차이가
서비스 성능 격차를 만들어냅니다.

▲ 목차로 돌아가기

데이터 주권 문제 — 쓰기 전에 알아야 할 것

DeepSeek 공식 서비스(chat.deepseek.com)를 쓴다면 개인정보 문제는
실제로 따져봐야 합니다.
2025년 1월 이탈리아 데이터보호청(Garante)이 GDPR 위반을 이유로
즉각 서비스 차단을 내렸고, 이후 EU 12개국 이상이 조사를 시작했습니다.
(출처: ai-regulation.com, 2026.01)

한국에서는 개인정보보호위원회(PIPC)가 2025년 2월 앱 다운로드를
자발적으로 중단시킨 뒤 조사를 진행했습니다.
4월 24일 발표된 결과에 따르면 사용자 프롬프트가 ByteDance를 포함한
중국 소재 기업으로 전송된 사실이 확인됐습니다.
(출처: 개인정보보호위원회 PIPC, 2025.04.24)
DeepSeek는 이후 한국어 개인정보처리방침을 갱신하고 서비스를 재개했습니다.

V4를 안전하게 쓰려면 두 가지 경로를 구분해야 합니다.
첫째, 공식 채팅 서비스는 데이터가 중국 서버에 저장됩니다.
업무상 민감한 내용이나 개인정보는 입력하지 않는 게 현실적인 대응입니다.
둘째, 오픈웨이트를 내려받아 자체 서버에서 구동하면
데이터가 외부로 나가지 않습니다.
보안이 중요한 기업·기관은 자체 배포가 사실상 유일한 선택지입니다.

⚠️ 주의: 공식 서비스 사용 시 입력한 프롬프트는 AI 학습에 활용될 수 있으며,
2025년 3월 17일 이후 옵트아웃 기능이 추가됐지만 기본값은 ‘동의’입니다.
설정에서 직접 비활성화해야 합니다.
(출처: PIPC 결정, 2025.04.24)

▲ 목차로 돌아가기

Q&A — 자주 나오는 질문 5가지

Q1. DeepSeek V4는 지금 당장 쓸 수 있나요?

2026년 3월 27일 현재 공식 출시 없습니다.
3월 9일 V4 Lite가 플랫폼에 등장했다 사라진 게 전부입니다.
Dataconomy 보도 기준으로는 4월 정식 출시가 유력합니다.
V3는 지금도 chat.deepseek.com에서 무료로 쓸 수 있습니다.

Q2. Engram이 적용되면 코딩 성능이 크게 오르나요?

27B 연구 모델 기준으로 HumanEval +3.0 향상이 확인됩니다.
그런데 Engram 논문이 27B·40B에서만 검증됐고,
1조 파라미터 스케일 결과는 공개되지 않았습니다.
수치를 그대로 외삽하면 안 됩니다.

Q3. 오픈소스니까 마음대로 상업적으로 써도 되나요?

DeepSeek는 오픈소스가 아니라 ‘오픈웨이트’입니다.
가중치를 공개하지만 학습 데이터나 훈련 코드 전체가 공개되는 건 아닙니다.
V4의 라이선스 세부 조건은 공식 출시 후 확인이 필요합니다.

Q4. V4가 나오면 GPT-5나 Claude를 대체할 수 있나요?

내부 테스트에서 코딩 분야 GPT-4o·Claude Opus 3.5 수준을 주장했지만,
제3자 독립 검증은 아직 없습니다.
SWE-bench 현재 선두는 Claude Opus 4.5(80.9%)입니다.
V4가 이 수치를 넘어야 ‘코딩 1위’ 주장이 의미 있습니다.

Q5. V4를 자체 서버에 돌리면 얼마나 스펙이 필요한가요?

WaveSpeedAI 분석 기준, 양자화(INT4) 기준 약 500GB VRAM이 필요합니다.
소비자 등급에서는 RTX 4090 두 장 또는 RTX 5090 한 장 구성이 검토됩니다.
Engram의 CPU RAM 오프로드 기능이 실제로 적용되면
GPU 요구량이 줄어들 가능성이 있지만, 공식 확인 전입니다.

▲ 목차로 돌아가기

마치며

DeepSeek V4 관련 정보 중 루머와 공식 근거를 가르는 기준은 단 하나입니다.
arXiv에 올라온 논문과 DeepSeek 기술 보고서에 수치가 있느냐 없느냐입니다.
Engram, mHC, Sparse Attention 모두 논문 수치가 있고
이미 커뮤니티에서 재현까지 됐습니다.
반면 “GPT-5를 넘는다”, “3월 출시 확정” 같은 말은
지금까지 실체를 확인할 방법이 없었습니다.

솔직히 말하면, V4가 4월에 나오든 5월에 나오든
출시 직후 한국어 실사용 리뷰가 쏟아질 겁니다.
그때 이 글의 수치와 비교해보면 어느 주장이 맞았는지 검증할 수 있습니다.
그게 공식 자료를 인용하는 이유이고, 루머를 그대로 전달하지 않는 이유입니다.

V4 출시 후 실제 벤치마크 수치가 공개되면
이 글도 즉시 업데이트할 예정입니다.

본 포스팅 참고 자료

  1. Engram 공식 논문 — arXiv:2601.07372 (2026.01.12)
    arxiv.org/abs/2601.07372
  2. mHC 공식 논문 — arXiv:2512.24880 (2025.12)
    arxiv.org/abs/2512.24880
  3. DeepSeek V3 Technical Report — arXiv:2412.19437
    arxiv.org/html/2412.19437v1
  4. kili-technology — DeepSeek V4 현황 분석 (2026.03)
    kili-technology.com
  5. Dataconomy — DeepSeek V4·Hunyuan 4월 출시 보도 (2026.03.16)
    dataconomy.com
  6. ai-regulation.com — DeepSeek 규제 동향 1년 리뷰 (2026.01)
    ai-regulation.com
  7. TechNode — DeepSeek V4 멀티모달 출시 보도 (2026.03.02)
    technode.com
  8. 개인정보보호위원회(PIPC) — DeepSeek 사전실태점검 결과 발표 (2025.04.24)
    pipc.go.kr


본 포스팅은 2026년 03월 27일 기준으로 작성됐습니다. DeepSeek V4는 아직 공식 출시 전이며,
본 포스팅 작성 이후 서비스 정책·UI·기능·스펙이 변경될 수 있습니다.
공식 출처 자료를 기반으로 작성했으나, 미출시 모델에 관한 내용은
공식 기술 보고서 발표 이후 달라질 수 있습니다.
중요한 의사결정은 반드시 최신 공식 발표를 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기