Nemotron 3 Super 120B-A12B 기준
GTC 2026 발표
Nemotron 3 Super: “무겁다” 믿으면 12B 활성화 함정과 토큰 폭탄 동시에 맞는 이유
NVIDIA가 GTC 2026에서 공개한 이 모델, “120B니까 당연히 느리겠지”라고 생각했다면 절반은 틀렸고, “5배 빠르다니까 무조건 좋겠지”라고 생각했다면 나머지 절반도 틀렸습니다.
120B인데 12B처럼 작동하는 구조: 이게 가능한 이유
NVIDIA가 2026년 3월 11일 GTC 2026 기간 중 공개한 Nemotron 3 Super는 총 파라미터 1,200억(120B) 개를 가지고 있지만, 토큰 하나를 처리할 때 실제로 활성화되는 파라미터는 그 10%인 127억(12.7B) 개에 불과합니다. (출처: NVIDIA 공식 개발자 블로그, 2026.03.11) 이것이 가능한 이유는 혼합 전문가(Mixture-of-Experts, MoE) 아키텍처 덕분입니다. MoE는 모델 안에 수백 개의 ‘전문가 네트워크’를 두고, 각 토큰마다 그 중 일부만 선택적으로 활성화하는 방식입니다.
Nemotron 3 Super는 여기서 한 단계 더 나아가 LatentMoE라는 새로운 기법을 도입했습니다. 기존 MoE는 토큰을 모델의 전체 숨겨진 차원(hidden dimension, d=4096)에서 전문가로 직접 라우팅했습니다. LatentMoE는 토큰을 먼저 훨씬 작은 잠재 공간(l=1024, 1/4 크기)으로 압축한 뒤 전문가 연산을 수행하고, 결과를 다시 원래 차원으로 되돌립니다. (출처: NVIDIA 연구소 공식 기술 보고서, 2026.03.10) 이 압축 덕분에 같은 연산 비용으로 4배 더 많은 전문가를 운용할 수 있어, 총 512개 전문가 중 22개를 동시에 활성화하는 방식으로 정확도와 효율을 동시에 높입니다.
💡 이 글에서만 볼 수 있는 분석: 공식 기술 보고서와 독립 벤치마크(Artificial Analysis)를 교차 분석한 결과입니다. “120B 모델이니까 느릴 것”이라는 직관은 MoE 구조 앞에서 완전히 무효화됩니다. 12B 활성 파라미터라는 수치는 실제 추론 속도가 “12B급”에 가깝게 동작할 수 있음을 의미합니다. 이것이 Nemotron 3 Super가 독립 측정 기관 Artificial Analysis 효율성 순위에서 전체 3위(436.2 토큰/초)를 기록한 직접적 이유입니다.
GTC 2026에서 공개된 진짜 성능 수치
NVIDIA는 GTC 2026에서 Nemotron 3 Super의 주요 성능 지표를 다음과 같이 발표했습니다. 먼저 처리량(throughput)입니다. 같은 크기의 경쟁 오픈소스 모델인 GPT-OSS-120B 대비 2.2배, Qwen3.5-122B 대비 7.5배 높은 추론 처리량을 기록했습니다(8K 입력 / 16K 출력 기준). (출처: NVIDIA 공식 연구소 페이지, 2026.03.10) 이 수치는 독립 측정 기관 Artificial Analysis의 실측과도 일치합니다.
다음은 에이전틱 AI 벤치마크입니다. Nemotron 3 Super는 PinchBench(OpenClaw 에이전트 뇌 성능 벤치마크)에서 85.6% 정확도로 동급 오픈 모델 중 1위를 기록했으며, NVIDIA AI-Q 리서치 에이전트를 DeepResearch Bench 및 DeepResearch Bench II 리더보드 1위에 올렸습니다. (출처: developer.nvidia.com, 2026.03.11) 1백만 토큰(1M token) 컨텍스트 창을 지원하면서도 GPT-OSS-120B와 Qwen3.5-122B를 RULER 1M 컨텍스트 벤치마크에서 능가하는 결과를 보였습니다.
| 모델 | 전체 파라미터 | 활성 파라미터 | 컨텍스트 | 추론 속도 |
|---|---|---|---|---|
| Nemotron 3 Super | 120B | 12.7B ✅ | 1M ✅ | ~436 t/s ✅ |
| GPT-OSS-120B | 120B | 약 20B | 128K | 비교 기준 |
| Qwen3.5-122B | 122B | 약 10B | 128K | 느림 |
| DeepSeek V3.2 | 685B | 37B | 128K | 중간 |
출처: NVIDIA 공식 연구소, Artificial Analysis 독립 측정 (2026.03)
이 수치가 의미하는 바는 명확합니다. Nemotron 3 Super는 DeepSeek V3.2보다 전체 파라미터는 6분의 1에 불과하지만, 컨텍스트 창 크기는 약 8배 크고 추론 속도는 훨씬 앞섭니다. 즉, 여러 에이전트가 동시에 대화 이력과 툴 출력을 메모리에 담아야 하는 멀티 에이전트 시나리오에서 실질적으로 훨씬 유리한 구조입니다.
“4배 빠른 정밀도”의 실체: NVFP4가 기존 상식을 뒤집는 방식
일반적으로 AI 모델을 저정밀도(low-precision)로 변환하면 속도는 빨라지지만 정확도가 떨어지는 것이 업계 상식이었습니다. 그런데 Nemotron 3 Super는 이 상식을 정면으로 뒤집었습니다. NVIDIA는 사후에 모델을 양자화(post-training quantization)하는 대신, 25조(25T) 토큰의 사전 학습 전 과정을 처음부터 끝까지 NVFP4(4비트 부동소수점)로 진행했습니다. (출처: NVIDIA 개발자 블로그, 2026.03.11)
공식 발표에 따르면, Blackwell B200 GPU 기준으로 NVFP4는 기존 Hopper H100의 FP8 대비 최대 4배 빠른 추론 속도를 제공하면서 정확도 손실이 없는 것으로 나타났습니다. 이것이 가능한 이유는 모델이 4비트 산술의 제약 조건을 처음부터 학습했기 때문입니다. 즉, 제약 안에서 정확해지도록 훈련됐기 때문에 사후 양자화처럼 정확도가 무너지지 않습니다. 이는 GPT-OSS가 이미 사전 학습에 4비트(MXFP4) 정밀도를 사용했지만, NVFP4 방식과는 수치 안정성 측면에서 구조적 차이가 있다는 점에서 더욱 돋보입니다.
⚡ 직접 확인 가능한 수치: NVIDIA 공식 기술 보고서에 따르면 NVFP4 사전 학습 도중 가중치 기울기의 약 7%가 0으로 수렴(underflow)하는 문제가 관찰됐습니다. NVIDIA는 고정밀도로 전환 후 최종 학습을 진행하는 방식을 테스트했으나, 손실 곡선은 개선됐지만 다운스트림 정확도 지표에서 차이가 없다는 결론을 내렸습니다. 즉, 7%의 기울기 소실 문제가 있음에도 불구하고 전체 NVFP4로 학습한 모델이 사실상 같은 정확도를 달성한다는 뜻입니다. (출처: NVIDIA 기술 보고서 ablation study, 2026.03.10) 이 수치는 저정밀도 사전 학습의 한계를 넘어섰다는 강력한 증거입니다.
처리량이 빠른데 왜 실제 응용에서 역효과가 날 수 있는가
여기서 많은 블로그가 말하지 않는 핵심이 등장합니다. NVIDIA가 5배 높은 처리량을 강조하는 반면, 독립 측정 기관 Artificial Analysis는 Nemotron 3 Super가 평가 스위트 전체를 실행하는 데 약 1억 1천만(110M) 개의 토큰을 생성했다는 점을 독립적으로 측정했습니다. (출처: Artificial Analysis, 2026.03) 이 수치를 같은 급 경쟁 모델과 비교하면 다음과 같습니다.
⚠️ 토큰 소비 비교 (평가 스위트 전체 기준)
- Nemotron 3 Super: 약 110M 토큰
- GPT-OSS-120B (high effort): 약 77M 토큰
- Qwen3.5-122B (reasoning mode): 약 91M 토큰
출처: Artificial Analysis 독립 측정 (2026.03)
이 수치가 의미하는 것은 단순합니다. 1초에 더 많은 토큰을 처리하는 속도의 이점이, 더 많은 토큰을 생성한다는 과도한 verbose 성향 때문에 상쇄될 수 있다는 것입니다. 예를 들어, API 비용 기준으로 계산해보면, 같은 작업을 처리할 때 GPT-OSS-120B보다 약 43% 더 많은 토큰이 발생하므로, 처리 속도 이점(2.2배)의 절반 이상이 실제 비용 및 응답 시간 측면에서 상쇄될 가능성이 있습니다. 따라서 단순한 속도 수치만 보고 도입을 결정하기보다는, 실제 사용 시나리오에서의 평균 출력 토큰 수를 반드시 사전 측정해야 합니다. 이것이 기존 리뷰에서 다루지 않는 핵심 함정입니다.
DeepSeek V3.2 / Qwen3.5와의 직접 비교: 수치로 보는 실전 차이
Nemotron 3 Super를 실제로 사용하기 전에 반드시 알아야 할 경쟁 모델 비교 수치를 정리합니다. 먼저 코딩 성능입니다. 독립 평가 사이트 Verdent AI에 따르면, LiveCodeBench 기준 Nemotron 3 Super 81.19% vs Qwen3.5 비교 대상으로 코딩 특화 벤치마크에서는 Qwen3.5-122B가 Nemotron 3 Super를 능가한다는 평가가 나옵니다. (출처: Verdent AI, 2026.03) 이는 순수 코딩 작업이 목적이라면 Qwen3.5가 더 유리할 수 있음을 시사합니다.
어떤 경우에 Nemotron 3 Super가 압도적으로 유리한가
Nemotron 3 Super가 진정한 강점을 발휘하는 영역은 세 가지입니다. 첫째, 멀티 에이전트 파이프라인입니다. 멀티 에이전트 시스템은 표준 채팅 대비 최대 15배 많은 토큰을 생성합니다(매 턴마다 이전 대화 이력, 툴 출력, 중간 추론 단계를 재전송해야 하기 때문). 이 환경에서 1M 토큰 컨텍스트 창은 단순한 스펙이 아니라 ‘에이전트 목표 이탈(goal drift)’ 방지를 위한 실질적 기반입니다. 둘째, 장문 문서 분석입니다. DeepSeek V3.2의 컨텍스트 창이 128K인 반면 Nemotron 3 Super는 1M으로, A4 기준 약 1,500페이지 분량을 한 번에 처리할 수 있습니다. 셋째, 추론 속도가 중요한 실시간 시스템입니다. Artificial Analysis 기준 436.2 토큰/초로 전체 평가 모델 중 3위를 기록하고 있습니다.
DeepSeek V3.2 대비 명확한 열세 영역
반면 DeepSeek V3.2는 멀티모달(이미지 입력) 측면에서 Nemotron 3 Super와 동일하게 지원하지 않는 한계가 있지만, 순수 지식 정확도와 일부 수학·코딩 태스크에서 Nemotron 3 Super보다 앞서는 결과가 나옵니다. 또한 DeepSeek V3.2는 685B 전체 파라미터에서 37B가 활성화되는 구조로, 단일 복잡 추론 태스크에서의 깊이 측면에서는 유리할 수 있습니다. (출처: Artificial Analysis 비교 분석, 2026.03)
소비자 GPU에서 Nemotron 3 Super를 돌리면 벌어지는 일
NVIDIA가 강조하는 NVFP4 4배 속도 향상 수치는 데이터센터용 Blackwell GPU(B200 기준)에서의 이야기입니다. 이 부분이 상당한 혼란을 일으키고 있습니다. 현재 소비자 시장에서 판매 중인 RTX 5090은 Blackwell 아키텍처이지만 SM120 마이크로아키텍처로, 데이터센터 B200의 SM100과는 다릅니다. (출처: NVIDIA 개발자 포럼, 2026.01~03)
🔴 RTX 5090(SM120)에서의 실제 상황
NVIDIA 공식 개발자 포럼에 따르면 RTX 5090과 RTX 5080은 SM12x 계열로, NVFP4 MoE 지원이 아직 안정화 중입니다. vLLM의 GitHub 이슈(#35065, 2026.02)에서도 “SM120에서 NvFP4 MoE 백엔드 선택 코드가 아직 완전한 RTX 5090 지원을 갖추지 못했다”는 점이 명시되어 있습니다. 결과적으로 NVFP4 정밀도의 4배 속도 향상은 소비자 RTX 5090에서 현재 시점(2026.03) 기준으로 보장되지 않으며, 직접 돌릴 경우 FP8 또는 BF16 체크포인트를 활용하는 것이 현실적입니다.
로컬 실행을 원하는 경우, Unsloth AI에 따르면 Nemotron 3 Super는 최소 64GB VRAM/RAM이 필요합니다. (출처: unsloth.ai/docs, 2026.03) 클라우드로 시작하는 것이 더 실용적이며, OpenRouter에서 현재 무료로 API를 제공하고 있고 Google Cloud Vertex AI, Oracle Cloud, AWS Bedrock(출시 예정), Microsoft Azure 등에서도 NVIDIA NIM 마이크로서비스 형태로 이용할 수 있습니다. (출처: NVIDIA 공식 개발자 블로그, 2026.03.11)
자주 묻는 질문 5가지
마치며 — Nemotron 3 Super를 어떻게 볼 것인가
Nemotron 3 Super는 여러 면에서 2026년 오픈 AI 모델 생태계의 흐름을 반영합니다. 규모를 늘리는 것보다 아키텍처 혁신으로 효율을 극대화하려는 방향, 완전 오픈소스 가중치와 학습 데이터를 공개함으로써 기업과 연구자가 자유롭게 커스터마이징할 수 있도록 하는 전략, 그리고 에이전틱 AI라는 구체적 사용 시나리오에 최적화된 설계 철학이 담겨 있습니다.
하지만 이 모델이 모든 상황에서 정답은 아닙니다. 처리 속도의 이점은 극도로 verbose한 응답 성향에 의해 일부 상쇄될 수 있으며, NVFP4의 진짜 속도 혜택은 Blackwell 데이터센터 GPU에서만 온전히 누릴 수 있습니다. 코딩 특화 벤치마크에서는 Qwen3.5에 밀리는 결과도 확인됩니다.
Nemotron 3 Super가 빛을 발하는 곳은 명확합니다. 여러 AI 에이전트가 긴 맥락을 공유하며 협력하는 멀티 에이전트 파이프라인, 수천 페이지 문서를 단일 컨텍스트에서 분석해야 하는 금융·법률·의료 분야, 그리고 NVIDIA 인프라 위에서 온프레미스로 AI를 구축하려는 기업 환경입니다. 이 조건에 해당한다면, 오픈소스 AI 역사에서 가장 공격적인 효율-정확도 균형을 달성한 모델 중 하나를 무료로 사용할 수 있습니다.
📚 본 포스팅 참고 자료
- NVIDIA 공식 개발자 블로그 — Introducing Nemotron 3 Super (2026.03.11)
- NVIDIA 공식 블로그 — New NVIDIA Nemotron 3 Super Delivers 5x Higher Throughput (2026.03.11)
- NVIDIA 연구소 공식 기술 보고서 — Nemotron 3 Super Technical Report (2026.03.10)
- Artificial Analysis — Nemotron 3 Super vs DeepSeek V3.2 비교 (2026.03)
- Maxime Labonne — Nemotron 3 Super: NVIDIA’s gpt-oss killer? (2026.03)
본 포스팅은 2026년 3월 16일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. IT/AI 서비스는 업데이트로 내용이 달라질 수 있으므로, 최신 정보는 NVIDIA 공식 사이트를 참고하시기 바랍니다.


댓글 남기기