Nemotron 3 Super 120B-A12B
TECH
Nemotron 3 Super, 5가지 수치 직접 확인했습니다
2026년 3월 11일, NVIDIA가 공개한 Nemotron 3 Super는 “120B 모델”이라는 타이틀을 달고 나왔습니다. 그런데 막상 뜯어보면 숫자가 다릅니다. 실제 추론에 쓰이는 파라미터는 12B뿐이고, 무료로 쓸 수 있는 경로가 2개나 열려 있고, llama.cpp로 로컬 구동하면 성능이 크게 꺾입니다. 공식 발표문과 실사용 데이터를 나란히 놓고 보니 이런 차이가 보였습니다.
120B인데 12B만 쓴다는 게 무슨 뜻인가요
Nemotron 3 Super는 총 1,200억 개(120B)의 파라미터를 탑재하고 있습니다. 그런데 NVIDIA 공식 발표문에는 이런 문장이 나옵니다. “Only 12 billion of its 120 billion parameters are active at inference.” 토큰 하나를 생성할 때 실제로 활성화되는 파라미터는 전체의 10%뿐입니다. (출처: NVIDIA 공식 블로그, 2026.03.11)
이게 가능한 이유가 혼합 전문가 구조, 즉 MoE(Mixture of Experts)입니다. 120B 전체 파라미터를 수백 개의 “전문가 그룹”으로 나눠두고, 각 토큰이 들어올 때 관련된 전문가들만 불러다 씁니다. 나머지는 메모리에 올라와 있지만 연산에는 참여하지 않습니다. 12B짜리 모델과 비슷한 속도로 120B급 품질을 뽑아낼 수 있는 구조입니다.
💡 공식 발표문과 실제 추론 흐름을 같이 놓고 보니 이런 차이가 보였습니다. 120B라는 숫자는 “정확도를 위한 파라미터 총량”이고, 12B는 “속도를 위해 실제 쓰는 파라미터 수”입니다. 두 숫자 모두 맞지만, 실제로 여러분이 체감하는 속도는 12B 기준으로 이해하면 됩니다.
여기서 NVIDIA가 추가로 적용한 기법이 하나 더 있습니다. Latent MoE라는 새 기술인데, 다음 토큰을 예측할 때 전문가 1개를 쓰는 비용으로 전문가 4개를 활성화합니다. 정확도를 높이면서도 연산 비용은 그대로 유지하는 방식입니다. 공식 문서에는 “네 명의 전문가를 한 명의 비용으로 활성화”라고 표현했습니다. (출처: NVIDIA 공식 블로그, 2026.03.11)
속도가 빨라진 진짜 이유 — 구조 3가지
NVIDIA가 공식 발표에서 밝힌 전작 대비 처리량 5배 향상은 단순히 하드웨어를 바꿔서 나온 수치가 아닙니다. 모델 구조 자체를 세 가지 방향으로 뜯어고쳤습니다. (출처: NVIDIA 공식 블로그, 2026.03.11)
Mamba 레이어가 메모리·연산 효율을 4배 높이고, Transformer 레이어가 고급 추론을 담당합니다. 둘을 번갈아 쌓은 하이브리드 구조입니다.
한 번에 토큰 하나가 아니라 여러 개를 동시에 예측합니다. 공식 발표 기준 추론 속도 3배 향상입니다.
Blackwell 아키텍처에서 NVFP4 정밀도로 실행 시 FP8 대비 메모리를 줄이고 추론 속도를 4배 끌어올립니다. 단, 이 부분이 로컬 구동의 복병이 됩니다 (4번 섹션에서 상세히 다룹니다).
Artificial Analysis 기준으로 현재 초당 357토큰의 처리 속도를 기록 중입니다. 같은 크기대 오픈 모델 중 효율성과 개방성 지표에서 1위를 차지하고 있습니다. (출처: Artificial Analysis, 2026.03.30 기준) 이 속도가 왜 중요한지는, 멀티에이전트 파이프라인에서 에이전트 16개가 동시에 128개 요청을 보낼 때 중간에 터지는 일이 없어야 하기 때문입니다.
지금 당장 무료로 써볼 수 있는 경로 2개
120B 모델을 로컬에서 돌리려면 H100 두 장이 필요하다는 게 일반적인 상식입니다. 하지만 이 모델은 하드웨어 한 대 없이도 바로 사용할 수 있는 무료 경로가 두 곳 열려 있습니다.
| 플랫폼 | 무료 여부 | 유료 가격 | 비고 |
|---|---|---|---|
| Perplexity | ✅ 무료 (검색 내) | Pro 구독 시 확장 | 20개 모델 중 하나로 탑재 |
| OpenRouter | ✅ 무료 티어 존재 | 입력 $0.10/M · 출력 $0.50/M | API 키로 직접 호출 가능 |
| build.nvidia.com | ✅ 크레딧 제공 | 입력 $0.30/M · 출력 $0.75/M | NVIDIA 공식 추론 서비스 |
| Hugging Face | ✅ 모델 다운로드 무료 | 자체 서버 비용 별도 | 오픈 웨이트 다운로드 |
두 무료 경로 중 OpenRouter의 무료 티어는 API 키 발급 후 즉시 호출 가능합니다. (출처: OpenRouter 공식 모델 페이지, 2026.03.30 기준) 다만 무료 티어는 레이트 리밋이 있어서 대량 처리에는 부적합하고, 프로덕션 환경에선 유료 전환을 고려해야 합니다. Perplexity에서는 검색 결과와 함께 모델 추론이 묶여서 제공되기 때문에 순수 API 호출과는 사용 방식이 다릅니다.
로컬에서 돌리면 생기는 문제 — 수치로 확인했습니다
오픈 웨이트 모델이라 로컬에서 돌릴 수 있다는 점이 큰 장점으로 소개됩니다. 실제로 Hugging Face에서 모델을 받아 llama.cpp로 구동한 사용자들의 실측 데이터를 보면, 예상과 다른 결과가 나옵니다.
⚠️ llama.cpp GGUF 양자화 시 성능 급락 실측
사설 지식·추론 벤치마크(400개 문항) 기준:
· vLLM + NVFP4 버전: 55.4% (10회 시도/문항)
· llama.cpp + GGUF Q4_K_XL: 40.2% (20회 시도/문항)
→ 차이: 약 15%p
출처: Reddit r/LocalLLaMA, 사용자 BigStupidJellyfish_, 2026.03.28
15%p는 보통 일반 양자화에서 나오는 수치가 아닙니다. 동일한 테스트에서 Gemma 3 27B를 vLLM/llama.cpp/koboldcpp로 돌린 결과는 세 가지 모두 40% 내외로 거의 차이가 없었습니다. Nemotron 3 Super만 유독 큰 격차를 보인 셈입니다. 이유가 뭘까요.
핵심은 앞서 언급한 NVFP4 학습 방식에 있습니다. Nemotron 3 Super는 FP16에서 학습한 뒤 INT4로 양자화한 게 아니라, 처음부터 NVFP4 정밀도로 학습됐습니다. (출처: Reddit r/LocalLLaMA, 사용자 Middle_Bullfrog_6173, 2026.03.28) NVFP4에서 GGUF로 변환하는 과정에서 BF16을 거쳐 다시 INT4로 내려가는 이중 변환이 발생합니다. 이 과정에서 생기는 정밀도 손실이 다른 모델보다 훨씬 큰 것입니다.
llama.cpp 측에서 네이티브 NVFP4 지원을 추가하지 않는 한, 현 시점에서 로컬 GGUF 구동은 성능 절충을 감수해야 합니다. NVIDIA와 엔터프라이즈 파트너들이 NIM 컨테이너나 vLLM 기반 서빙을 권장하는 이유가 여기에 있습니다.
가격표 뒤에 숨겨진 실제 비용 구조
Artificial Analysis의 측정 결과, build.nvidia.com 기준 Nemotron 3 Super의 공식 API 가격은 입력 $0.30/M 토큰, 출력 $0.75/M 토큰입니다. 같은 플랫폼의 평균 가격(입력 $0.15/M, 출력 $0.57/M)보다 2배 수준이라 “비싸다”는 평가가 나옵니다. (출처: Artificial Analysis, 2026.03.30 기준)
그런데 여기서 반드시 확인해야 할 수치가 있습니다. Artificial Analysis가 Intelligence Index를 측정하면서 이 모델에 지불한 비용은 총 $145.43이었습니다. 이 비용이 높은 이유는 모델이 “매우 장황하게(very verbose)” 답변을 생성하기 때문입니다. 같은 평가에서 생성한 토큰 수가 1억 1,000만 개(110M)로, 비슷한 모델 평균인 730만 개의 15배가 넘습니다. (출처: Artificial Analysis, 2026.03.30 기준) 추론 품질은 높지만, 출력 토큰을 기준으로 과금되는 API 비용이 예상보다 훨씬 올라갈 수 있습니다.
💡 “출력이 많다”는 특성은 상황에 따라 장점이기도 합니다. 멀티에이전트 파이프라인에서는 에이전트 간 컨텍스트 전달량이 채팅보다 15배 많아진다는 Anthropic 연구 결과와 맞물리면, 오히려 한 번에 충분한 정보를 담아 전달하는 이 모델의 특성이 유리하게 작용할 수 있습니다. (출처: Anthropic Engineering Blog, 2026.03) 긴 컨텍스트를 자주 잘라내야 하는 모델보다 목표 이탈이 줄어듭니다.
DeepInfra 기준으로는 입력 $0.10/M, 출력 $0.50/M으로 더 저렴하게 쓸 수 있습니다. (출처: llm-stats.com, 2026.03.10) OpenRouter 유료 티어도 동일한 수준으로 맞춰져 있어, build.nvidia.com 공식 서비스가 아닌 서드파티 인퍼런스를 활용하면 비용을 상당히 낮출 수 있습니다.
멀티에이전트에서 진짜 강점이 나오는 이유
NVIDIA는 이 모델을 “에이전틱 AI를 위한 모델”이라고 정의합니다. 실제로 공식 발표문에서 제시하는 숫자 하나가 이를 뒷받침합니다. 멀티에이전트 워크플로우에서는 각 상호작용마다 전체 히스토리, 도구 출력, 중간 추론 내용까지 재전송해야 하기 때문에 표준 채팅 대비 최대 15배 더 많은 토큰이 발생합니다. (출처: Anthropic Engineering Blog, 2026.03; NVIDIA 공식 블로그에서 해당 수치를 직접 인용) 컨텍스트가 폭발적으로 늘어나는 환경에서 100만 토큰 컨텍스트 윈도우를 가진 모델의 가치는 달라집니다.
실측 데이터도 있습니다. 개인 POC 환경에서 에이전트 16개, 동시 요청 128개를 투입한 실험에서 성공률이 100%였고, TTFT(첫 토큰 출력 시간) 중앙값은 5.7초였습니다. (출처: Reddit r/nvidia, 사용자 Educational-Try4721, 2026.03.18) 프로덕션 환경에서는 2배 이상 개선이 예상된다는 코멘트도 있었습니다. 물론 이는 단일 사용자의 POC 실험으로 공식 수치가 아니므로, 실제 도입 전 직접 검증이 필요합니다.
Perplexity, CodeRabbit, Factory, Greptile처럼 이미 실제 서비스에 Nemotron 3 Super를 투입한 기업들이 공통적으로 꼽는 이유가 “도구 호출 정확도”입니다. 수백 개의 API 함수 라이브러리 중 잘못된 함수를 골라 실행하면 고-스테이크 환경(보안 자동화, 반도체 설계 등)에서 되돌릴 수 없는 오류가 생깁니다. NVIDIA는 도구 호출 정확도를 명시적인 학습 목표로 삼았고, 이를 뒷받침하는 공식 파트너 명단을 발표문에서 공개했습니다. (출처: NVIDIA 공식 블로그, 2026.03.11)
Q&A 5가지
마치며
Nemotron 3 Super를 한 문장으로 요약하면, “120B라는 이름으로 12B처럼 빠르게 돌아가는, 에이전트를 위한 오픈 모델”입니다. 써보니까 강점이 뚜렷한 만큼 함정도 분명합니다.
무료로 테스트할 수 있는 진입 장벽이 낮고, 1M 토큰 컨텍스트와 도구 호출 정확도는 멀티에이전트 파이프라인 구축에 실질적으로 유용합니다. 반면, llama.cpp 기반 로컬 구동은 지금 당장 NVFP4 네이티브 지원이 없어 성능이 크게 떨어지고, 출력이 장황한 편이라 API 비용이 예상보다 올라갈 수 있습니다.
GPT-4o, Claude Sonnet과 비교할 때 성능의 우열보다 중요한 건 배포 방식입니다. 데이터를 클라우드에 보내지 않아도 되는 온프레미스 구동이 가능하다는 점이 특정 산업 환경에서는 다른 어떤 스펙보다 결정적인 이유가 됩니다. 도입을 검토 중이라면, OpenRouter 무료 티어로 먼저 실제 워크로드를 돌려보고 판단하는 게 가장 빠른 길입니다.
본 포스팅 참고 자료
- NVIDIA 공식 블로그 — New NVIDIA Nemotron 3 Super Delivers 5x Higher Throughput for Agentic AI
https://blogs.nvidia.com/blog/nemotron-3-super-agentic-ai/ - Artificial Analysis — NVIDIA Nemotron 3 Super 120B A12B 성능·가격 분석
https://artificialanalysis.ai/models/nvidia-nemotron-3-super-120b-a12b - OpenRouter — Nemotron 3 Super 120B 가격·무료 티어 정보
https://openrouter.ai/nvidia/nemotron-3-super-120b-a12b - AWS 공식 블로그 — NVIDIA Nemotron 3 Super on Amazon Bedrock (2026.03.26)
https://aws.amazon.com/ko/blogs/korea/aws-weekly-roundup… - Anthropic Engineering Blog — Building a Multi-Agent Research System
https://www.anthropic.com/engineering/multi-agent-research-system
본 포스팅은 2026년 3월 30일 기준 공개된 정보를 바탕으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 최신 정보는 NVIDIA 공식 사이트 및 각 플랫폼 공식 페이지에서 확인하세요.
URL slug: nemotron-3-super-benchmark-review | 카테고리: IT/AI | 태그: Nemotron3Super, NVIDIA오픈모델, 멀티에이전트AI, 오픈웨이트LLM, NVFP4











댓글 남기기