2026.04.07 기준
DeepSeek V4 Lite (2026.03.09 출시) 기준
Full V4 출시 대기 중

DeepSeek V4, 1조 파라미터인데
왜 아직 안 나왔을까

SWE-bench 83.7%라는 유출 벤치마크가 인터넷을 떠들썩하게 만들었습니다. 그런데 이 숫자, 실제로는 가짜로 판명됐습니다. 동시에, 화웨이 칩 훈련 실패로 출시가 4번 연기된 진짜 이유도 공개됐습니다. 공식 arXiv 논문과 GitHub 코드 유출을 같이 보니 기존 글들이 말하지 않는 것들이 보였습니다.

~1T

전체 파라미터

32~37B

토큰당 활성 파라미터

컨텍스트 토큰

4번

출시 연기 횟수

SWE-bench 83.7%, 왜 가짜인지 확인했습니다

2026년 2월, DeepSeek V4가 SWE-bench Verified에서 83.7%를 기록했다는 차트가 Reddit과 X를 통해 빠르게 퍼졌습니다. GPT-5.2(80.0%)와 Claude Opus 4.5(80.9%)를 모두 앞지르는 수치였으니 반응이 뜨거울 수밖에 없었습니다. 그런데 Epoch AI 이사가 소셜미디어를 통해 직접 ‘이 유출은 거짓’이라고 확인해줬습니다. Epoch AI는 FrontierMath 벤치마크를 운영하는 공식 기관입니다.

💡 공식 발표문과 실제 벤치마크 수치를 같이 놓고 보니 이런 차이가 보였습니다

유출된 차트에서 Kimi K2.5가 Gemini 3 Pro보다 HLE 점수가 높다고 나와 있었습니다. 그런데 공식 기록을 보면 Gemini 3 Pro는 HLE에서 37.52점, Kimi K2.5는 24.37점입니다. 이미 알려진 사실관계조차 틀렸다는 뜻입니다. 유출 게시물을 올린 사용자가 논란 직후 스스로 삭제한 것도 이를 방증합니다.

솔직히 말하면, 벤치마크 수치 하나가 가짜라고 해서 DeepSeek V4의 기술적 의의가 사라지는 건 아닙니다. 오히려 허구의 숫자에 가려진 진짜 기술 혁신이 훨씬 더 중요합니다. V4의 핵심은 벤치마크 수치가 아니라 아키텍처 구조 자체의 변화에 있습니다.

▲ 목차로 돌아가기

화웨이 칩 실패, 그 뒤에 있는 이야기

출시가 4번 밀린 진짜 원인

DeepSeek V4는 2026년 1월 말 → 2월 17일(춘절) → 3월 3일 → 3월 9일, 네 차례 예고된 출시일을 지키지 못했습니다. 커뮤니티와 언론이 공통적으로 지목하는 원인은 화웨이 Ascend 910B 칩에서의 훈련 실패입니다. Financial Times와 Reuters가 보도한 내용에 따르면, 화웨이 Ascend 910B는 NVIDIA A100 대비 효율이 약 91% 수준인데, 커스텀 연산 커널이 수렴에 실패해 결국 훈련을 NVIDIA H20으로 재시작해야 했습니다.

💡 중국 정부 압박이 기술 지연의 배경이 되었습니다

중국 당국이 DeepSeek에 화웨이 국산 칩을 사용해 훈련할 것을 압박한 시점과, 미국이 H20 칩 수출을 금지한 2025년 4월이 겹칩니다. 그 결과 화웨이 칩으로 훈련을 시도했다가 실패하고, 2025년 12월 H200(25% 관세)이 일부 승인된 이후에야 NVIDIA 기반 훈련이 재개됐습니다. 기술 문제와 지정학 문제가 동시에 작용한 셈입니다.

Hunter Alpha와 V4 Lite의 관계

2026년 3월 중순, OpenRouter에 개발자 정보 없이 ‘Hunter Alpha’라는 1조 파라미터급 모델이 익명으로 등장해 화제가 됐습니다. 일부에서는 이것이 DeepSeek V4라는 주장이 나왔는데, 독립 벤치마크 테스터 Umur Ozkul은 Reuters를 통해 “아키텍처 차이가 있어 DeepSeek V4일 가능성이 낮다”고 밝혔습니다. 커뮤니티에서는 ‘Healer Alpha’로 불리는 200B 파라미터 모델이 V4 Lite(V4 아키텍처 검증용 경량 버전)일 가능성이 높다는 분석이 더 설득력 있게 받아들여지고 있습니다.

▲ 목차로 돌아가기

1조 파라미터인데 비용이 안 뛰는 이유

“파라미터가 1조개면 당연히 추론 비용도 폭등하겠지”라고 생각하기 쉽습니다. 그런데 실제로는 그렇지 않습니다. MoE(Mixture-of-Experts) 구조 덕분에 토큰 하나를 처리할 때 실제로 활성화되는 파라미터는 32~37B에 불과합니다. DeepSeek V3가 671B 전체 파라미터 중 37B만 활성화했던 것과 거의 같은 수준입니다.

항목	DeepSeek V3	DeepSeek V4 (예상)	변화
전체 파라미터	671B	~1T	+49%
토큰당 활성 파라미터	37B	32~37B	거의 동일
컨텍스트 윈도우	128K	1M	8배 확장
멀티모달	텍스트 전용	텍스트+이미지+영상+음성	풀 멀티모달
주의 메커니즘	MLA	MLA + Engram	장문 최적화

(출처: apiyi.com DeepSeek V4 Preview 가이드, 2026.04.03 / kili-technology.com DeepSeek V4 기술 분석, 2026.03.23)

파라미터가 49% 늘었는데 활성 파라미터는 그대로라는 건, 모델이 더 많은 것을 알지만 매 추론마다 쓰는 연산량은 그대로라는 의미입니다. 지식 용량은 키우되 추론 속도와 비용은 지키는 구조입니다.

▲ 목차로 돌아가기

Engram이 추론 성능을 더 높인다는 아이러니

DeepSeek V4의 핵심 기술 중 하나인 Engram(엔그램)은 이름에서부터 ‘기억’을 강조합니다. 그래서 대부분의 사람들은 이 기술이 지식 검색 성능을 높이는 데 집중한다고 생각합니다. 그런데 2026년 1월 12일 arXiv에 공개된 공식 논문(arXiv:2601.07372)을 보면 결과가 예상과 다릅니다.

💡 논문 수치를 직접 확인하니 통념과 반대 방향이었습니다

Engram을 적용한 27B 연구 모델에서 지식 검색 벤치마크(MMLU +3.4, CMMLU +4.0)보다 복잡한 추론 벤치마크(BBH +5.0, ARC-Challenge +3.7)에서 더 큰 성능 향상이 나타났습니다. 코딩 성능도 HumanEval +3.0, MATH +2.4 향상됐습니다. 기억 모듈이 추론 능력을 더 키운다는 게 논문의 결론입니다. (출처: arXiv:2601.07372, 2026.01.12)

왜 이런 일이 일어날까요

논문의 기계론적 분석(LogitLens)에 따르면, Engram이 초기 레이어의 ‘패턴 인식’ 작업을 대신 처리해줍니다. 덕분에 신경망의 초기 레이어가 표준 MoE 모델의 훨씬 깊은 레이어처럼 작동하게 됩니다. 연산 자원이 단순 암기에서 벗어나 복잡한 추론 쪽으로 재배분된다는 뜻입니다. 더 깊이 생각할 여유가 생기는 겁니다.

장문 처리도 확실히 달라집니다

Multi-Query Needle-in-a-Haystack(NIAH) 테스트에서 기존 구조가 84.2%였던 것이 Engram 적용 후 97.0%로 높아졌습니다. (출처: arXiv:2601.07372) 100만 토큰 문서 안에서 특정 정보를 찾아내는 정확도가 12.8%포인트 오른 것입니다. 대규모 코드베이스 전체를 맥락으로 유지하면서 작업하는 시나리오에서 이 차이는 실제로 느껴집니다.

⚠️ Engram의 알려진 한계도 있습니다

현재까지 검증된 규모는 27B~40B 모델뿐입니다. 1T 규모에서 동일하게 작동할지는 공식 발표가 나와야 알 수 있습니다.
해시 충돌(동일 슬롯에 다른 N-gram이 매핑) 문제는 후속 논문(arXiv:2601.16531)에서도 계속 연구 중인 부분입니다.
메모리 테이블은 학습 후 고정됩니다. 자주 바뀌는 도메인 지식(규제, 금융 데이터 등)엔 재훈련 없이 반영이 어렵습니다.

▲ 목차로 돌아가기

V4 Lite와 V4 Full, 뭐가 다를까

2026년 3월 9일 조용히 등장한 V4 Lite는 공식 발표도, 기술 보고서도 없이 DeepSeek 플랫폼에 슬쩍 올라왔습니다. 커뮤니티가 “컨텍스트 윈도우가 1M으로 늘었다”는 걸 먼저 발견했습니다. 이 Lite 버전의 의미는 명확합니다. V4의 핵심 아키텍처(MoE+Engram+mHC)가 실제로 작동한다는 것을 200B 규모에서 먼저 검증한 것입니다.

구분	V4 Lite (출시 완료)	V4 Full (출시 대기)
총 파라미터	~200B	~1T
공식 발표	없음 (스텔스 업데이트)	4월 예정 (미확인)
역할	아키텍처 검증용	최종 플래그십
오픈소스 예정	미확인	Apache 2.0 예상

(출처: kili-technology.com DeepSeek V4 Guide, 2026.03.23 / Dataconomy, Whale Lab 인용, 2026.03.16)

Full 버전 출시가 계속 늦어지는 이유는 1T 규모 분산 훈련에서 발생하는 엔지니어링 문제 때문이라는 분석이 우세합니다. 2026년 4월 중순~하순 출시가 유력하게 거론되고 있지만, DeepSeek가 공식 답변을 내놓지 않은 부분입니다.

▲ 목차로 돌아가기

Claude·GPT-5.4 대비 비용 비교, 직접 계산했습니다

DeepSeek V4의 가장 강력한 무기는 성능이 아니라 가격일 수 있습니다. 지금 DeepSeek V3.2의 공식 API 가격은 입력 토큰 100만 개당 $0.28입니다. (출처: platform.deepseek.com, 2026.04.07 기준) 이것과 경쟁 모델을 나란히 놓으면 차이가 눈에 띕니다.

모델	입력 가격(100만 토큰)	출력 가격(100만 토큰)	배율 (DeepSeek 대비)
DeepSeek V3.2 (현재)	$0.28	$0.42	기준
DeepSeek V4 (낙관 예측)	약 $0.14	약 $0.28	0.5배 (절반)
DeepSeek V4 (중립 예측)	약 $0.30	약 $0.50	1.1배
Claude Opus 4.5	$15.00	$75.00	약 54배
GPT-4o (참고)	$2.50	$10.00	약 9배

(출처: platform.deepseek.com 공식 가격, 2026.04.07 / apiyi.com V4 가격 예측 / platform.claude.com 공식 가격 / DeepSeek V4 가격은 추정치)

중립 시나리오에서도 Claude Opus 4.5 대비 50배 저렴한 수준입니다. 오픈 웨이트로 공개되면 자체 서버에서 돌릴 수 있고, INT4 양자화를 적용하면 RTX 5090 한 장으로도 구동 가능하다는 분석도 나와 있습니다(apiyi.com 기준). 기업 입장에서 이 가격 차이는 무시하기 어렵습니다.

▲ 목차로 돌아가기

자주 묻는 질문 Q&A

Q1
DeepSeek V4는 언제 나오나요?

Whale Lab(중국 테크 매체)이 Dataconomy를 통해 보도한 내용에 따르면 2026년 4월 출시가 유력합니다. V4 Lite가 3월 9일 아키텍처 검증을 마쳤고, 4월 중순~하순 출시가 거론되고 있습니다. 다만 DeepSeek가 공식 날짜를 발표하지 않은 상태라, 이전처럼 추가 지연 가능성도 배제하기 어렵습니다.

Q2
1조 파라미터면 개인 PC에서 돌릴 수 없나요?

풀 정밀도(FP16)로는 멀티노드 GPU 클러스터가 필요합니다. 그러나 INT4 양자화를 적용하면 약 32GB VRAM으로 줄어들어, RTX 5090 한 장에서 구동이 가능하다는 분석이 나와 있습니다(apiyi.com 기준). 실제로 로컬 배포가 가능한지는 Full 버전이 출시되고 커뮤니티 실측 결과가 나와야 확인됩니다.

Q3
유출된 83.7% 벤치마크는 완전히 가짜인가요?

Epoch AI 이사가 직접 가짜임을 확인했고, 유출자가 게시물을 자진 삭제했습니다. 차트 내 타 모델 수치도 공식 기록과 맞지 않아 위조로 판단됩니다. 다만 V4가 코딩 성능에서 강점을 보일 것이라는 예측 자체는 Engram 아키텍처의 특성상 합리적인 추론입니다. 수치는 가짜지만 방향성은 일리 있습니다.

Q4
DeepSeek R2 추론 모델은 별도로 나오나요?

출시 여부와 시기는 아직 공개되지 않았습니다. 일부 분석가는 R2의 추론 기능이 V4에 통합됐을 가능성을 제기합니다. V3.2가 이미 Thinking 모드를 지원하고 있는 것도 이 관측을 뒷받침합니다. DeepSeek가 공식 입장을 내놓지 않은 부분이라, 현재로서는 V4 출시 이후 공개 가능성이 높습니다.

Q5
오픈소스로 공개되면 뭐가 달라지나요?

Apache 2.0 라이선스로 공개되면 기업이 자체 서버에 모델 전체를 올려 운용할 수 있습니다. 외부 API에 데이터를 보내지 않아도 되는 구조입니다. Engram의 메모리 테이블이 CPU RAM에 저장되는 방식 덕분에, GPU 메모리가 부족한 환경에서도 방대한 도메인 지식을 탑재한 채로 돌릴 수 있다는 점도 기업 도입 측면에서 의미가 큽니다.

▲ 목차로 돌아가기

마치며 — 숫자보다 구조를 봐야 하는 이유

DeepSeek V4를 둘러싼 소동의 핵심은 ‘숫자의 전쟁’이었습니다. 가짜 벤치마크가 인터넷을 달구고, 출시일 루머가 쏟아졌습니다. 그 소란 안에서 정작 중요한 이야기, 즉 왜 기억 모듈이 추론 성능을 더 높이는지, 왜 파라미터가 1조개여도 추론 비용이 크게 안 뛰는지, 화웨이 칩 실패 뒤에 어떤 지정학적 맥락이 있는지는 조용히 묻혀버렸습니다.

막상 공식 논문(arXiv:2601.07372)과 GitHub 코드 유출을 직접 확인해보면, DeepSeek V4는 ‘더 큰 모델’이 아니라 ‘더 영리하게 설계된 모델’을 목표로 합니다. Engram이 단순 기억이 아니라 추론까지 올려주는 구조라는 점, mHC가 1조 파라미터 훈련을 안정화하는 수학적 기법이라는 점은 기술적으로 꽤 흥미로운 방향입니다.

개인적인 생각을 더하자면, DeepSeek가 계속 오픈 웨이트 전략을 고수한다는 점이 장기적으로 더 중요한 변수입니다. 모델 자체보다 그 위에 쌓이는 도메인별 파인튜닝 데이터가 경쟁력이 되는 시대가 앞당겨지기 때문입니다. V4 Full이 실제로 4월 안에 나오는지, 그리고 공식 벤치마크가 ‘기억 모듈이 추론을 키운다’는 논문의 주장을 1T 규모에서도 입증하는지, 두 가지를 지켜보면 충분합니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

▲ 목차로 돌아가기

⚠️ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. DeepSeek V4의 공식 출시 전 내용이며, 실제 출시 시 스펙·가격·라이선스가 달라질 수 있습니다. 본 포스팅 내 가격 예측은 추정치이며, 공식 발표 전까지 참고 수준으로만 활용하시기 바랍니다. 공식 수치는 platform.deepseek.com에서 확인하세요.

DeepSeek V4, 1조 파라미터인데
왜 아직 안 나왔을까

댓글 남기기응답 취소

최신 글

카테고리

Tags

DeepSeek V4, 1조 파라미터인데 왜 아직 안 나왔을까

DeepSeek V4, 1조 파라미터인데왜 아직 안 나왔을까

SWE-bench 83.7%, 왜 가짜인지 확인했습니다

화웨이 칩 실패, 그 뒤에 있는 이야기

출시가 4번 밀린 진짜 원인

Hunter Alpha와 V4 Lite의 관계

1조 파라미터인데 비용이 안 뛰는 이유

Engram이 추론 성능을 더 높인다는 아이러니

왜 이런 일이 일어날까요

장문 처리도 확실히 달라집니다

V4 Lite와 V4 Full, 뭐가 다를까

Claude·GPT-5.4 대비 비용 비교, 직접 계산했습니다

자주 묻는 질문 Q&A

마치며 — 숫자보다 구조를 봐야 하는 이유

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기

DeepSeek V4, 1조 파라미터인데
왜 아직 안 나왔을까