Nemotron 3 Super 기준
오픈웨이트
Nemotron 3 Super, 단일 GPU로 된다고요?
이 조건이 먼저입니다
NVIDIA가 2026년 3월 11일 공개한 Nemotron 3 Super는 “120B 파라미터 모델을 단일 GPU로 돌릴 수 있다”는 문장 하나로 AI 커뮤니티를 달궜습니다. 근데 공식 문서를 직접 파고들면 이 문장 바로 다음에 조건이 붙습니다. 오늘은 그 조건부터 짚겠습니다.
120B인데 왜 12B처럼 도나요 — 아키텍처의 핵심
Nemotron 3 Super는 총 120B 파라미터를 가지고 있지만, 실제 추론 시 활성화되는 파라미터는 12B에 불과합니다. 이게 가능한 이유가 LatentMoE(잠재 혼합전문가) 구조 때문입니다. 일반 MoE 구조는 토큰이 전체 임베딩 차원에서 전문가로 라우팅되는 반면, LatentMoE는 토큰을 더 작은 잠재 공간으로 먼저 압축한 다음 라우팅합니다. NVIDIA 공식 블로그에서 “동일한 추론 비용으로 4배 많은 전문가를 호출할 수 있다”고 직접 밝히고 있습니다. (출처: NVIDIA Developer Blog, 2026.03.11)
여기에 세 가지 레이어가 혼합됩니다. Mamba-2 레이어는 긴 시퀀스를 선형 시간 복잡도로 처리해서 100만 토큰 컨텍스트를 이론이 아닌 실제로 가능하게 만드는 기반입니다. MoE 레이어는 활성화 파라미터를 12B로 묶으면서 처리량을 유지하고, Transformer 어텐션 레이어는 정밀한 연상 기억과 단거리 의존성 처리에 개입합니다. 세 구조가 각자의 약점을 서로 보완하는 식입니다.
💡 공식 기술 레포트와 모델 카드를 같이 놓고 보니 이런 차이가 보였습니다 — Hugging Face 모델 카드 기본 컨텍스트 설정은 256K로 잡혀 있습니다. 1M 토큰을 쓰려면 별도 플래그를 직접 켜야 하는데, VRAM 요구량이 대폭 늘어난다는 사실이 홍보 문구 어디에도 잘 안 나옵니다. (출처: NVIDIA build.nvidia.com 모델카드, 2026.03.11)
추가로 MTP(Multi-Token Prediction) 기법도 탑재됐습니다. 한 번의 순전파에서 여러 토큰을 동시에 예측하는 구조인데, 학습 중에는 더 풍부한 그래디언트 신호를 주고, 추론 시에는 자체적인 추론 가속 역할을 합니다. NVIDIA는 이전 Nemotron Super 대비 처리량 5배 향상을 공식적으로 발표했습니다. (출처: NVIDIA Developer Blog, 2026.03.11)
단일 GPU 배포, 조건을 먼저 보세요
솔직히 말하면, “단일 GPU 배포 가능”이라는 표현은 절반만 맞습니다. 공식 모델 카드에는 최소 하드웨어 요구 사항으로 8× H100-80GB가 명시돼 있습니다. (출처: NVIDIA build.nvidia.com 모델카드, 2026.03.11) 단일 GPU 배포가 가능한 건 NVFP4 양자화 버전을 B200 또는 DGX Spark에서 실행하는 경우에만 해당합니다.
| 구성 | GPU | 최대 컨텍스트 | 비고 |
|---|---|---|---|
| NVFP4 (B200 단일) | 1× B200 | 1M | 플래그 설정 필요 |
| BF16 (H100 기준) | 8× H100-80GB | 256K (기본) | 1M 시 추가 VRAM |
| DGX Spark (단일) | 1× B200 | 1M | NVFP4 기준 |
(출처: NVIDIA build.nvidia.com 모델카드, 2026.03.11 / reeboot.fr 분석, 2026.03.20)
비교 기준으로 한 가지를 짚으면, Mistral Small 4는 비슷한 수준의 MoE 구조에서 최소 2× H200이 필요합니다. NVFP4 학습 덕분에 메모리 요구량 자체가 낮아진 것은 맞습니다만, 이 이점을 누리려면 Blackwell 아키텍처 GPU가 전제입니다. H100 기반 인프라를 운영 중인 팀이라면 “단일 GPU”는 해당 사항이 없습니다.
💡 공식 발표문 흐름과 실제 배포 플로를 나란히 놓고 보면 — NVFP4 내용은 배포 가이드 중반부에 등장하지만, “단일 GPU” 문구는 마케팅 문서 첫 줄에 나옵니다. 순서가 바뀐 셈입니다.
공식 벤치마크 수치, 직접 읽어봤습니다
NVIDIA가 공개한 벤치마크를 Qwen3.5-122B A10B, GPT-OSS-120B와 나란히 놓으면 흥미로운 패턴이 보입니다. 전부 앞서는 게 아니라 영역마다 명확하게 갈립니다.
| 벤치마크 | Nemotron 3 Super | Qwen3.5-122B | GPT-OSS-120B |
|---|---|---|---|
| MMLU-Pro (일반 지식) | 83.73 | 86.70 | 81.00 |
| HMMT Feb25 with tools | 94.73 | 89.55 | — |
| RULER @ 512K (장문) | 95.67 | 95.95 | 46.70 |
| RULER @ 1M (100만 토큰) | 91.75 | 91.33 | 22.30 |
| HLE no tools (최고난도) | 18.26 | 25.30 | 14.90 |
| SWE-Bench (OpenHands) | 60.47 | 66.40 | 41.90 |
(출처: NVIDIA build.nvidia.com 모델카드, 2026.03.11)
GPT-OSS-120B는 512K 이상 장문에서 RULER 점수가 46.70으로 급락하는 반면, Nemotron 3 Super는 95.67로 거의 유지됩니다. 장문 처리가 필요한 작업이라면 경쟁이 되지 않습니다. 반대로 HLE(인류 최후의 시험)처럼 도메인 전문 지식 깊이를 요구하는 영역에서는 Qwen3.5-122B에 밀립니다.
Artificial Analysis 측정 기준으로 전반적 지능 지수는 36점으로, GPT-OSS-120B(33점)보다 앞서지만 Qwen3.5-122B(42점)에는 뒤집니다. (출처: Artificial Analysis, 2026.03.11) 즉, “오픈웨이트 모델 중 가장 효율적인 120B급”이지 “가장 똑똑한 120B급”은 아닙니다.
추론 모드 3가지, 쓰임새가 다릅니다
막상 해보면 다른 부분이 있습니다. 대부분 모델이 추론을 켜거나 끄는 두 가지 옵션만 있는 것과 달리, Nemotron 3 Super는 추론 깊이를 4단계로 조절할 수 있습니다. 이게 생산 환경에서 의외로 중요합니다.
enable_thinking: True — 체인오브소트 추론 흔적을 먼저 생성한 뒤 최종 답변을 출력합니다. 복잡한 수학, 코드 분석, 다단계 에이전트 작업에 적합합니다.
enable_thinking: False — 추론 흔적 없이 바로 응답합니다. 단순 조회, 챗봇 대화, 응답 지연이 더 중요한 상황에 씁니다.
low_effort: True — 추론을 켜되 흔적 길이를 줄여 중간 수준 복잡도의 요청에서 레이턴시를 낮춥니다.
reasoning_budget: N — 추론 토큰 상한을 수동으로 지정합니다. 레이턴시 예산이 밀리초 단위로 고정된 프로덕션 환경에 유용합니다.
이 4단계 제어가 실제로 의미 있는 이유는 멀티에이전트 시스템에서 서브태스크마다 추론 깊이가 달라야 하기 때문입니다. 단순 정보 검색 스텝에는 추론을 끄고, 코드 디버깅 스텝에서만 추론을 켜는 방식으로 하나의 모델이 전체 파이프라인을 소화할 수 있습니다. 별도 모델을 두 개 운영할 필요가 없어집니다.
Qwen3.5-122B와 비교하면 이렇게 갈립니다
Artificial Analysis 실측 기준으로, 같은 8× NVIDIA B200 SXM 환경에서 Nemotron 3 Super(NVFP4)는 Qwen3.5-122B 대비 처리량이 약 40% 높습니다. 반대로 Artificial Analysis 지능 지수에서 Qwen3.5-122B는 6점 높습니다(42 vs 36). (출처: Artificial Analysis, 2026.03.11) 처리량과 지능 지수가 정반대 방향으로 갈리는 구조입니다.
💡 두 모델의 벤치마크 항목과 실제 추론 토큰 소비량을 함께 보면 — Nemotron 3 Super는 동일 평가 세트를 처리할 때 GPT-OSS-120B보다 약 40% 더 많은 출력 토큰을 씁니다. 정밀도를 얻는 대신 토큰 비용이 올라가는 구조입니다. (출처: Artificial Analysis, 2026.03.11)
NVIDIA가 보고한 처리량 우위(GPT-OSS-120B 대비 2.2배, Qwen3.5-122B 대비 7.5배)는 8K 입력 / 16K 출력 조건에서 측정된 수치입니다. (출처: NVIDIA Developer Blog, 2026.03.11) 멀티에이전트 시스템처럼 토큰 생성이 많은 환경과 문서 처리형 RAG에서 이 차이가 실제 운영 비용에 직접 반영됩니다.
반면 SWE-Bench 코딩 에이전트 성능(OpenHands 기준)에서는 Qwen3.5-122B가 66.40으로 Nemotron 3 Super의 60.47보다 앞섭니다. 코딩 에이전트 특화 작업만 본다면 Qwen3.5가 아직 우위입니다.
실제로 써야 하는 상황과 쓰지 말아야 할 상황
공식 문서와 실측 데이터를 교차해서 보면, Nemotron 3 Super가 진짜 힘을 발휘하는 상황이 꽤 구체적으로 좁혀집니다.
써야 할 상황
① 멀티에이전트 파이프라인을 대규모로 운영하는 경우. 공식 블로그에서 멀티에이전트 시스템은 일반 대화 대비 최대 15배 더 많은 토큰을 생성한다고 밝혔습니다. (출처: NVIDIA Developer Blog, 2026.03.11) 처리량이 2.2배 높다는 건 실제 운영 비용이 절반 이하로 떨어질 수 있다는 뜻입니다.
② 512K 토큰 이상 장문 처리가 필수인 경우. GPT-OSS-120B의 RULER @ 512K 점수는 46.70인 반면 Nemotron 3 Super는 95.67입니다. 경쟁이 되지 않습니다.
③ NVIDIA 인프라(H100/B200, vLLM, NeMo)를 이미 사용 중인 경우. NVFP4 커널이 Blackwell 아키텍처에 최적화돼 있어 타 인프라에서는 이 이점을 온전히 얻기 어렵습니다.
피해야 할 상황
① H100이 없고 B200도 없는 경우. 단일 GPU 배포 혜택을 받으려면 Blackwell 세대 GPU가 전제입니다. H100 기반에서는 공식 최소 사양이 8× H100-80GB입니다.
② 순수 코딩 에이전트 성능만 보는 경우. SWE-Bench 기준으로 Qwen3.5-122B(66.40)가 앞섭니다. 코드만 잘 짜면 된다면 대안을 먼저 검토하는 게 낫습니다.
③ 영어 이외 언어가 메인인 경우. 공식 모델 카드에 영어 SFT 샘플이 1,348만 개인 반면 다른 지원 언어는 각 5.3만 개 수준입니다. (출처: reeboot.fr 분석, 2026.03.20) 성능 편차가 실제로 클 수 있습니다.
Q&A
마치며
Nemotron 3 Super를 한 줄로 정리하면, “오픈웨이트 120B급 모델 중 처리량이 가장 높고, 장문 처리에서 압도적이지만, 그 이점을 받으려면 하드웨어와 목적이 딱 맞아야 한다”는 겁니다. 단일 GPU 배포, 100만 토큰 컨텍스트, NVFP4 학습이라는 세 가지 키워드가 동시에 성립하는 조건은 Blackwell 세대 GPU 환경에서만입니다.
이 모델이 특히 흥미로운 지점은 학습 자체를 4비트 정밀도로 시작했다는 점입니다. 후처리 양자화가 아니라 처음부터 NVFP4로 학습했다는 게 실제로 아키텍처 결정의 주류가 될 수 있음을 보여준 최초의 120B급 모델입니다. 다음 세대 모델들의 학습 방식이 어떻게 바뀔지 영향을 줄 수 있는 부분입니다.
써볼 여건이 된다면 NVIDIA Build에서 무료로 먼저 테스트하고, 실제 파이프라인 요구 사항과 대조해 보는 것이 가장 정직한 시작입니다. 수치는 조건 안에서만 의미가 있습니다.
본 포스팅 참고 자료
- NVIDIA Developer Blog — Introducing Nemotron 3 Super (https://developer.nvidia.com/blog/)
- NVIDIA build.nvidia.com — nemotron-3-super-120b-a12b 모델카드 (https://build.nvidia.com/nvidia/nemotron-3-super-120b-a12b/modelcard)
- Artificial Analysis — Nemotron 3 Super 분석 (https://artificialanalysis.ai/articles/)
- NVIDIA Nemotron 3 Super Technical Report PDF (https://research.nvidia.com/labs/nemotron/)
- reeboot.fr — Nemotron 3 Super 심층 리뷰 (https://reeboot.fr/en/blog/nvidia-nemotron-3-super)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 수록된 벤치마크 수치와 하드웨어 요구 사양은 2026년 3월 21일 기준 공개 자료를 바탕으로 하며, NVIDIA의 공식 업데이트에 따라 달라질 수 있습니다.

댓글 남기기