🤖 Nemotron 3 Super 120B-A12B 기준
출시일: 2026.03.11
Nemotron 3 Super 속도: “5배 빠르다”고 좋아했다면 지금 당장 확인하세요
NVIDIA가 2026년 3월 11일 공개한 Nemotron 3 Super는 “동급 최고 처리량”을 전면에 내세웠습니다. 초당 478 토큰, Qwen3.5 대비 7.5배 빠른 처리량이라는 수치가 AI 커뮤니티를 달궜습니다. 그런데 독립 벤치마크 기관이 실제로 돌려본 결과는 달랐습니다. 빠른 속도가 반드시 낮은 비용을 의미하지 않는 이유, 지금 바로 확인하세요.
1M 토큰 컨텍스트
오픈 웨이트 (퍼미시브 라이선스)
⚠ Blackwell GPU 최적화 전용
Nemotron 3 Super가 뭐길래 이렇게 화제인가
2026년 3월 11일, NVIDIA는 조용하지만 강렬한 발표 하나를 내놓았습니다. 바로 Nemotron 3 Super — 총 1,200억(120B) 파라미터를 갖추되, 실제 추론 시에는 120억(12B) 파라미터만 활성화되는 하이브리드 MoE(Mixture-of-Experts) 모델입니다. 에이전트형 AI, 즉 스스로 판단하고 순차적으로 작업을 수행하는 AI 시스템이 기업 환경에서 본격화되는 시점에, NVIDIA가 오픈 모델로 정면 승부를 선언한 셈입니다.
이 모델이 주목받는 핵심 이유는 세 가지입니다. 첫째, 1백만 토큰(1M token) 컨텍스트 윈도우로 긴 문서 전체를 한 번에 처리할 수 있습니다. 둘째, 이전 세대 Nemotron Super 모델 대비 처리량 최대 5배, 정확도 최대 2배 향상을 공식 발표했습니다(출처: NVIDIA 공식 블로그, 2026.03.11). 셋째, 모델 가중치뿐 아니라 10조 토큰 이상의 학습 데이터셋과 15개 강화학습 환경까지 모두 공개해 누구나 파인튜닝할 수 있습니다.
그런데 여기서 “5배 빠르다”는 숫자를 그대로 믿으면 낭패를 볼 수 있습니다. NVIDIA의 수치는 이전 Nemotron Super 버전 대비 비교이고, 독립 기관이 Qwen3.5·gpt-oss와 실측 비교한 결과에는 결정적인 함정이 숨어 있습니다. 아래 섹션에서 차근차근 따져보겠습니다.
숫자로 보는 실제 성능 — 공식 수치 그대로
우선 NVIDIA 공식 테크 리포트(2026.03.10)와 공식 블로그(2026.03.11)에서 직접 확인할 수 있는 핵심 수치를 정리했습니다. 독자 여러분이 직접 출처를 검증할 수 있도록 모든 수치에 출처를 병기했습니다.
| 항목 | 수치 | 의미 |
|---|---|---|
| 총 파라미터 | 120B (1,200억) | 추론 시 12B만 활성화 |
| 컨텍스트 윈도우 | 1,000,000 토큰 | A4 약 1,500페이지 분량 |
| 추론 처리량 (8k/16k) | Qwen3.5 대비 7.5× / gpt-oss 대비 2.2× | 단, 입력 8k·출력 16k 고정 조건 |
| MTP 수락률 | 평균 3.45 토큰 (SPEED-Bench) | DeepSeek-R1(2.70)·Qwen3-Next(3.33) 초과 |
| 지능 지수 (AA Index) | 36점 | 프론티어 모델(Gemini 3.1 Pro: 57점) 대비 약 37% 낮음 |
| 학습 데이터 | 25조(25T) 토큰, NVFP4 사전학습 | 4비트 저정밀도 전체 학습 최초 사례 |
| 독립 측정 속도 (AA) | 약 428~478 tokens/s | 전체 3위권 (1위: Mercury 2, 781 t/s) |
💡 이 분석은 NVIDIA 공식 테크 리포트(2026.03.10)와 Artificial Analysis 독립 측정 데이터를 교차한 결과입니다. 공식 발표 수치와 독립 측정 수치가 일치하지 않는 지점에서 핵심 함정이 발생합니다.
특히 지능 지수 36점이라는 수치는 독자에게 중요한 기준점을 제공합니다. 이 숫자는 Artificial Analysis Intelligence Index v4.0 기준으로, Gemini 3.1 Pro(57점), GPT-5.4(57점)와 비교하면 약 37% 낮습니다. 즉, Nemotron 3 Super는 “가장 똑똑한 모델”이 아니라는 점을 처음부터 전제하고 사용해야 합니다.
잠깐, 이게 사실입니다 — “빠른 속도”가 낮은 비용이 아닌 이유
⚠️ 많은 분들이 오해하는 부분: “처리량이 7.5배 빠르면 비용도 그만큼 싸진다”고 생각하기 쉽습니다. 그런데 공식 독립 측정 데이터는 정반대의 결과를 보여줍니다.
Artificial Analysis가 벤치마크 스위트 전체를 실행하며 독립 측정한 결과, Nemotron 3 Super는 총 1억 1천만(110M) 토큰을 생성했습니다. 이를 다른 모델과 비교해보면 이렇습니다.
| 모델 | 생성 토큰 수 | Nemotron 3 Super 대비 |
|---|---|---|
| Nemotron 3 Super | 110,000,000 | 기준 |
| Qwen3.5-122B | 91,000,000 | −17% 적게 생성 |
| gpt-oss-120b | 77,000,000 | −30% 적게 생성 |
이 숫자가 독자에게 의미하는 것은 명확합니다. Nemotron 3 Super는 초당 토큰을 빠르게 뽑아내지만, 답변 하나를 완성하는 데 경쟁 모델보다 훨씬 많은 토큰을 씁니다. 이른바 “극도의 장황함(extreme verbosity)” 현상입니다(출처: Artificial Analysis 독립 벤치마크 보고서, 2026.03).
📐 직접 계산해보세요
API 비용 = (생성 토큰 수) × (출력 토큰당 단가)
Nemotron 3 Super가 gpt-oss 대비 토큰을 43% 더 생성한다면,
실제 API 비용 차이가 사라지거나 오히려 역전될 수 있습니다.
예: gpt-oss 출력 단가 $0.30/1M, Nemotron 3 Super 출력 단가 $0.20/1M일 때
→ gpt-oss: 77M × $0.30 = $23.1 / Nemotron 3 Super: 110M × $0.20 = $22.0 (비슷!)
속도가 빠르다는 것은 분명한 장점이지만, 토큰을 더 많이 쓴다면 그 이점 상당 부분이 희석됩니다. 자체 배포(온프레미스) 환경에서는 토큰 단가가 없으니 순수 속도 이점을 그대로 누릴 수 있지만, API 과금 환경에서는 반드시 실제 생성 토큰 수를 먼저 측정하고 비교해야 합니다.
알고 보면 반대입니다 — “오픈소스니까 어디서든 빠르게 쓸 수 있다”가 틀린 이유
⚠️ 실제로 써보면 당황하는 이유: “오픈 웨이트 모델이니까 내 서버에 올리면 그 성능이 다 나오겠지”라고 생각하기 쉽습니다. 그런데 Nemotron 3 Super의 핵심 최적화는 특정 하드웨어에 종속되어 있습니다.
NVFP4 — Blackwell GPU 전용 포맷의 진실
Nemotron 3 Super는 전체 25조 토큰 사전학습을 NVFP4(NVIDIA 4비트 부동소수점) 포맷으로 진행한 최초의 대형 오픈 모델입니다. NVFP4는 NVIDIA Blackwell 아키텍처(H200 후속 GPU)에서 FP8 대비 메모리를 절반으로 줄이고 추론 속도를 최대 4배 끌어올립니다(출처: NVIDIA 공식 블로그, 2026.03.11). 이것이 “4배 빠른 추론”의 실체입니다.
문제는 H100(Hopper) 또는 A100 환경에서는 NVFP4를 지원하지 않는다는 점입니다. H100에서는 FP8 양자화 체크포인트를 사용할 수 있지만, 이는 Blackwell에서의 성능 수치와 직접 비교할 수 없습니다. “4배 빠른 추론”이라는 숫자는 Blackwell 대 Hopper 비교이므로, 현재 대다수 기업이 운영하는 H100 클러스터에서는 이 수치가 그대로 적용되지 않습니다.
NVFP4 사전학습의 숨겨진 리스크
공식 테크 리포트는 이 부분에 대해 솔직하게 밝히고 있습니다. 25조 토큰 사전학습 과정에서 그래디언트(기울기) 값의 최대 7%가 NVFP4 언더플로우로 인해 0이 되는 현상이 발생했습니다. NVIDIA는 고정밀도 포맷(MXFP8)으로 전환하는 “힐링(healing)” 기법을 실험했으나, 손실 곡선은 개선되었지만 하위 태스크 정확도에는 유의미한 차이가 없었다고 결론지었습니다(출처: NVIDIA Nemotron 3 Super Technical Report, 2026.03.10). 결국 최종 모델은 전 구간 순수 NVFP4로 학습되었습니다.
💡 이 분석에서만 확인할 수 있는 포인트: NVIDIA는 그래디언트 소실 현상을 “최종 정확도에 영향 없음”으로 처리했지만, 이것은 표준 벤치마크 기준입니다. 특수 도메인(의료·법률·금융 등 초고정밀 분야)에서 파인튜닝 시 저정밀도 기반 모델이 특정 패턴에 더 취약할 가능성이 있습니다. 공식 문서는 이에 대한 도메인별 검증 데이터를 아직 제공하지 않고 있습니다.
즉, Nemotron 3 Super를 최대 성능으로 활용하려면 Blackwell GPU + NIM 마이크로서비스 환경이 필요하고, 그렇지 않은 경우 “5배 빠른 처리량”은 실제 환경에서 다르게 측정될 수 있습니다. 모델을 도입하기 전 반드시 자신의 인프라 GPU 세대를 먼저 확인하세요.
실제로 어디서, 어떻게 쓸 수 있나
Nemotron 3 Super는 현재 다양한 경로로 접근할 수 있습니다. 용도별로 가장 적합한 접근 방식을 정리했습니다.
🔓 무료·빠른 테스트용
build.nvidia.com에서 API 키 없이 즉시 실행해볼 수 있으며, OpenRouter에서는 현재 무료 엔드포인트를 제공하고 있습니다(2026.03 기준). Perplexity 사용자라면 검색과 Computer 서비스 내 20개 오케스트레이션 모델 중 하나로 이미 포함되어 있습니다.
☁️ 기업 클라우드 환경
Google Cloud Vertex AI와 Oracle Cloud Infrastructure에서 이미 사용 가능하며, Amazon Web Services(Amazon Bedrock)와 Microsoft Azure는 곧 지원 예정입니다(출처: NVIDIA 공식 블로그, 2026.03.11). Cloudflare Workers AI에서는 2026년 3월 11일부터 바로 사용할 수 있습니다.
🏢 온프레미스 자체 배포
Hugging Face에서 BF16, FP8, NVFP4 세 가지 체크포인트를 모두 내려받을 수 있습니다. Dell Enterprise Hub와 HPE Agents Hub를 통한 기업용 온프레미스 배포도 지원합니다. NVIDIA NIM 마이크로서비스로 패키징되어 배포 절차가 표준화되어 있다는 점도 실무에서 유리합니다.
🔬 연구·파인튜닝 목적
NVIDIA는 모델 가중치뿐 아니라 10조 토큰 이상의 사전·사후 학습 데이터셋, 15개 강화학습 환경, 학습 레시피 전체를 공개했습니다. 특히 실제 GitHub 이슈를 자율 해결하도록 훈련한 SWE(소프트웨어 엔지니어링) 에이전트 스테이지 학습 데이터와, Claude Code·Codex가 기대하는 도구 형식으로 학습한 OpenHands 하네스 데이터는 에이전트형 AI 연구자에게 희귀한 공개 자료입니다.
Qwen3.5·gpt-oss와 직접 비교 — 누가 언제 유리한가
독립 기관 Artificial Analysis와 ML 연구자 Maxime Labonne의 교차 분석(2026.03)을 종합하면, 세 모델의 포지셔닝은 생각보다 뚜렷하게 나뉩니다.
| 기준 | Nemotron 3 Super | Qwen3.5-122B | gpt-oss-120B |
|---|---|---|---|
| 처리량(throughput) | 🏆 1위 (478 t/s) | 3위 | 2위 |
| 코딩 정확도 | 2위 | 🏆 1위 | 1~2위 |
| 장문 컨텍스트(RULER) | 🏆 1위 (1M token) | 262K → 열위 | 비슷 |
| 지식 기반 정확도 | 비슷 | 🏆 전반적 우세 | 비슷 |
| 오픈 웨이트 | ✅ 퍼미시브 | ❌ 비공개 | ✅ 오픈 |
| 실제 생성 토큰 수 | 110M (가장 많음) | 91M | 77M (가장 적음) |
💡 이 글에서 제시하는 선택 가이드: 코딩 에이전트를 운영하고 정확도가 최우선이라면 → Qwen3.5-122B(단, 오픈 아님). 장문 문서 처리와 자체 파인튜닝이 중요하고 Blackwell GPU 보유 시 → Nemotron 3 Super. API 비용 최소화가 우선이고 gpt-oss가 접근 가능하다면 → gpt-oss-120B.
주목할 점은 Qwen3 Max(클라우드 전용, 비공개)와 비교하면 Nemotron 3 Super가 오픈 웨이트라는 점에서 자체 배포·커스터마이징 측면의 유연성이 압도적으로 높습니다. 기업 입장에서 AI 서비스 내재화를 추진할 때 오픈 모델의 가치는 단순 벤치마크 점수보다 훨씬 큽니다. 그리고 Nemotron 3 Ultra(약 500B 파라미터)가 GTC에서 예고된 만큼, 2026년 상반기 중 오픈 모델 생태계에 또 한 번의 지각변동이 예상됩니다.
Q&A — 가장 많이 물어보는 5가지
마치며 — 결국 Nemotron 3 Super, 써야 하나
Nemotron 3 Super는 분명히 중요한 모델입니다. 오픈 웨이트로 120B 규모의 모델을 퍼미시브 라이선스로 공개하고, 거기에 10조 토큰 학습 데이터와 레시피까지 내놓은 것은 오픈 AI 생태계를 한 단계 끌어올리는 기여입니다. Perplexity, CodeRabbit, Factory, Greptile 같은 실제 AI 네이티브 기업들이 이미 프로덕션에 통합한 것도 단순 마케팅이 아닙니다.
하지만 이 포스팅에서 확인한 것처럼, “5배 빠르다”는 수치는 이전 세대 자사 모델 대비이고, 실제 벤치마크에서 생성 토큰이 경쟁 모델보다 최대 43% 많습니다. “4배 빠른 추론”은 Blackwell GPU 전용이며, H100 환경에서는 그 격차가 줄어듭니다. 지능 지수는 프론티어 모델의 63% 수준으로, 고복잡도 추론 작업에서는 한계가 명확합니다.
결국 Nemotron 3 Super의 핵심 가치는 장문 컨텍스트 에이전트 워크플로우 + 자체 배포 + 파인튜닝 자유도라는 세 가지가 겹칠 때 발휘됩니다. 이 조건에 해당하는 기업이나 개발자라면 지금 당장 테스트할 가치가 있습니다. 그렇지 않다면, 과대 포장된 속도 수치에 혹해 인프라 투자 결정을 서두르지 말고 충분히 검증한 뒤 도입을 결정하시길 권합니다.
한 줄 요약: Nemotron 3 Super는 “가장 똑똑한 AI”가 아니라 “에이전트 대규모 운영에 가장 잘 설계된 오픈 모델”입니다. 자신의 사용 목적이 에이전트형 AI 인프라 구축이라면 강력 추천, 단순 챗봇이나 API 비용 최소화가 목표라면 다른 선택지를 먼저 검토하세요.
📚 본 포스팅 참고 자료
- NVIDIA 공식 블로그 — New NVIDIA Nemotron 3 Super Delivers 5x Higher Throughput for Agentic AI (https://blogs.nvidia.com/blog/nemotron-3-super-agentic-ai/)
- NVIDIA Research — Nemotron 3 Super Technical Report (2026.03.10) (https://research.nvidia.com/labs/nemotron/Nemotron-3-Super/)
- Artificial Analysis — NVIDIA Nemotron 3 Super vs Qwen3 Max 비교 (https://artificialanalysis.ai/models/comparisons/nvidia-nemotron-3-super-120b-a12b-vs-qwen3-max)
- Maxime Labonne (ML researcher) — Nemotron 3 Super: NVIDIA’s gpt-oss killer? (2026.03.13) (https://maximelabonne.substack.com/p/nemotron-3-super-nvidias-gpt-oss)
- Hugging Face — NVIDIA Nemotron 3 Super 모델 허브 (https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8)
⚠️ 면책 조항: 본 포스팅은 2026년 3월 15일 기준으로 작성되었습니다. NVIDIA Nemotron 3 Super를 포함한 AI 서비스·모델의 사양, 가격, 라이선스 정책, 지원 플랫폼 및 성능 수치는 업데이트로 인해 언제든 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으므로, 중요한 의사결정 전에는 반드시 공식 출처를 재확인하시기 바랍니다.




댓글 남기기