Nemotron 3 Super 120B-A12B
IT/AI
네모트론 3 슈퍼, 7.5배 빠르다는 수치 직접 확인했습니다
NVIDIA가 3월 11일 공개한 네모트론 3 슈퍼(Nemotron 3 Super)는 총 1,200억 개 파라미터짜리 모델입니다. 그런데 실제 추론 시 활성화되는 파라미터는 120억 개뿐이에요. 이 구조 덕분에 같은 급 경쟁 모델들보다 최대 7.5배 빠르다는 수치가 공식 기술 보고서에 있습니다. 근데 이게 전부 좋은 얘기는 아닙니다. 벤치마크 정확도에서는 경쟁 모델에 밀리는 부분도 있고, 극단적인 출력 장황함이 속도 이점을 상쇄할 수 있다는 지적도 나옵니다. 지금부터 수치 하나씩 뜯어보겠습니다.
120B짜리인데 왜 12B처럼 달릴까요?
MoE 구조가 핵심입니다
네모트론 3 슈퍼의 총 파라미터는 1,200억 개입니다. 그런데 추론을 실행할 때 실제로 활성화되는 파라미터는 120억 개뿐이에요. 이게 MoE(Mixture of Experts) 구조의 핵심입니다. 모든 파라미터가 항상 켜져 있는 게 아니라, 입력 토큰마다 필요한 전문가 집합만 선택적으로 활성화됩니다.
솔직히 말하면, 이 구조 자체는 새로운 게 아닙니다. Mixtral이나 Qwen3.5도 MoE 기반이에요. 그런데 네모트론 3 슈퍼는 여기에 LatentMoE라는 신규 기법을 추가했습니다. 토큰을 전문가에 보내기 전에 4,096 차원에서 1,024 차원으로 먼저 압축합니다. 그러면 4분의 1 크기의 공간에서 전문가 계산을 마치고 다시 확장하는 방식이 됩니다.
💡 공식 기술 보고서와 실제 서빙 수치를 같이 놓고 보니 이런 차이가 보였습니다
LatentMoE 덕분에 전문가를 128개 + top-6 라우팅에서 512개 + top-22 라우팅으로 확장할 수 있었습니다. 같은 연산 비용으로 4배 많은 전문가가 협력하는 구조가 됩니다. (출처: NVIDIA Nemotron 3 Super Technical Report, 2026.03.10)
예를 들어 Python 코드와 SQL 쿼리가 동시에 담긴 입력이 들어오면, 각각의 전문가가 별도로 활성화됩니다. 일반적인 dense 모델이라면 하나의 거대한 두뇌가 전부를 처리하지만, 이 모델은 필요한 전문가만 소환하는 방식이라 속도가 유지됩니다. H100 GPU 한 대에서 구동 가능한 이유가 여기에 있습니다.
7.5배 빠르다는 수치, 조건이 있습니다
측정 조건을 보면 달라집니다
NVIDIA 공식 연구 페이지(2026.03.10)에 명시된 수치는 이렇습니다. “8K 토큰 입력, 16K 토큰 출력 조건에서 Qwen3.5-122B 대비 7.5배, GPT-OSS-120B 대비 2.2배 높은 처리량.” 이 조건이 핵심입니다. 짧은 입력과 중간 길이의 출력 조건에서 나온 수치에요.
그런데 독립 평가 기관인 Artificial Analysis가 실제 서비스 환경에서 측정한 수치도 공개했습니다. 초당 약 478 토큰, 첫 토큰까지의 시간은 0.56초입니다. 처리량 자체는 인상적이에요. 문제는 같은 평가에서 “극단적으로 장황하다(insanely verbose)”는 지적도 함께 나왔습니다.
⚠️ 직접 계산해볼 수 있는 수치입니다
Artificial Analysis 평가 스위트 실행 시 생성 토큰 수:
- 네모트론 3 슈퍼: 약 1억 1,000만 토큰
- GPT-OSS-120B (고노력 모드): 약 7,700만 토큰
- Qwen3.5-122B (추론 모드): 약 9,100만 토큰
네모트론 3 슈퍼는 Qwen3.5보다 1.2배 더 많은 토큰을 뱉어냅니다. 초당 처리 속도가 빠르더라도 총 생성량이 많으면 실제 사용자가 기다리는 시간은 비슷해질 수 있습니다. (출처: Artificial Analysis, Maxime Labonne 분석 글, 2026.03.11)
속도 이점이 실제로 효과를 내려면 출력 길이가 짧아야 합니다. 짧고 구체적인 답변을 요구하는 코드 리뷰, 문서 요약, 도구 호출 같은 작업에서는 이 속도가 살아납니다. 반면 긴 추론 과정이 필요한 수학 풀이나 리포트 작성이라면 장황함이 속도 이점을 상쇄할 가능성이 있습니다.
1M 토큰 컨텍스트, 진짜로 유지될까요?
Mamba가 이걸 가능하게 만듭니다
100만 토큰 컨텍스트 윈도우는 A4 기준 약 2,000페이지 분량의 문서를 한 번에 처리하는 규모입니다. 일반 트랜스포머 구조라면 이 길이에서 메모리 사용량이 제곱으로 늘어나기 때문에 사실상 불가능합니다. 네모트론 3 슈퍼가 이걸 실용적으로 구현할 수 있는 이유는 아키텍처의 88개 레이어 중 대부분이 Mamba-2 기반으로 구성됐기 때문입니다.
Mamba 계층은 상태 공간 모델(SSM)을 기반으로 합니다. 시퀀스 길이에 대해 선형 복잡도를 가져서 1M 토큰에서도 메모리 사용량이 폭발하지 않습니다. 다만 SSM 단독으로는 특정 정보를 긴 맥락 안에서 정확히 “찾아내는” 작업(연상 기억)에서 약점이 있습니다. 그래서 핵심 레이어 위치에 트랜스포머 어텐션 레이어를 끼워 넣어 보완합니다.
NVIDIA 기술 보고서에서는 RULER 벤치마크 1M 토큰 조건에서 GPT-OSS-120B와 Qwen3.5-122B를 모두 앞선다고 밝히고 있습니다. (출처: NVIDIA Nemotron 3 Super Technical Report, 2026.03.10) 이 수치는 긴 법률 문서, 전체 코드베이스, 긴 대화 기록을 단일 컨텍스트에서 처리하는 에이전트 워크플로에서 실질적인 차이를 만듭니다.
정확도에서 1등이 아닌 이유
공식 발표문과 실제 평가 수치가 다를 때 이렇게 됩니다
NVIDIA 공식 블로그에는 “GPT-OSS-120B, Qwen3.5-122B 대비 동등하거나 높은 정확도”라고 적혀 있습니다. 그런데 독립 분석가인 Maxime Labonne의 상세 분석(2026.03.11)에는 이런 문장이 있습니다. “Qwen3.5-122B가 지식 집약적 벤치마크와 에이전트 벤치마크 전반에서 raw accuracy를 앞선다. GPT-OSS-120B는 일부 수학·코딩 과제에서 우위를 보인다.”
네모트론 3 슈퍼가 1등인 영역은 HMMT Feb25 수학 대회 문제와 긴 문서 검색(long-context retrieval)입니다. PinchBench에서는 85.6%로 오픈 모델 중 1위를 기록했습니다. 근데 PinchBench는 OpenClaw 에이전트 프레임워크 내에서의 성능을 측정하는 특수 벤치마크입니다. 일반적인 지식 QA나 코딩 정확도 벤치마크에서의 1위가 아닙니다.
💡 벤치마크 항목별로 선두 모델이 다릅니다 — 모델 선택 기준을 바꿔야 하는 이유입니다
| 평가 항목 | 네모트론 3 슈퍼 | GPT-OSS-120B | Qwen3.5-122B |
|---|---|---|---|
| 처리량 (8K/16K) | 🥇 1위 | 2위 | 3위 |
| RULER 1M 컨텍스트 | 🥇 1위 | 2위 | 3위 |
| 지식 집약적 QA | 경쟁 | 경쟁 | 🥇 앞서는 경우 多 |
| PinchBench (에이전트) | 🥇 85.6% | 확인 필요 | 확인 필요 |
| 출력 장황함 | 110M 토큰 | 77M 토큰 | 91M 토큰 |
출처: NVIDIA Research (2026.03.10), Artificial Analysis 독립 평가, Maxime Labonne 분석(2026.03.11)
이 테이블이 말하는 건 간단합니다. 네모트론 3 슈퍼는 “가장 정확한 모델”이 아니라 “에이전트 파이프라인에서 가장 효율적인 모델”로 설계됐다는 것이에요. 이 차이를 모르고 단순히 “NVIDIA 새 모델 = 최고 성능”으로 이해하면 실제 사용에서 기대와 어긋납니다.
실제로 쓰려면 이 구조를 알아야 합니다
슈퍼 혼자 쓰는 모델이 아닙니다
NVIDIA가 공식 개발자 블로그(2026.03.11)에서 직접 제시한 배포 패턴이 있습니다. “Super + Nano” 조합입니다. 간단한 작업은 네모트론 3 나노(약 30B급)가 처리하고, 복잡한 다단계 추론이나 대용량 코드베이스 분석은 슈퍼가 맡는 구조입니다. 예를 들어 소프트웨어 개발 에이전트라면 단순 PR 리뷰는 나노가, 코드베이스 전체를 이해해야 하는 버그 수정은 슈퍼가 처리하는 방식입니다.
💡 훈련 방식의 특이한 점을 공식 기술 보고서에서 직접 확인했습니다
멀티에이전트 시스템은 표준 채팅 대화보다 최대 15배 많은 토큰을 생성합니다. 매 단계마다 도구 출력과 추론 기록 전체를 다시 전송하기 때문입니다. 네모트론 3 슈퍼는 이 “컨텍스트 폭발” 문제를 해결하기 위해 1M 토큰 네이티브 컨텍스트 + 목표 정렬 강화 학습(21개 환경, 120만 롤아웃)으로 훈련됐습니다. (출처: Anthropic 멀티에이전트 연구 보고서, NVIDIA Nemotron 3 Super Tech Report 2026.03.10)
강화 학습 단계도 인상적입니다. GRPO 방식으로 수학, 코드, STEM, 도구 호출, 안전 등 21개 환경에서 훈련됐고, 마지막에는 GitHub 이슈를 자율적으로 해결하는 SWE 에이전트 특화 단계도 별도로 진행됐습니다. OpenHands를 에이전트 하네스로 사용해서 Claude Code, Codex 등이 기대하는 도구 형식과 호환됩니다. (출처: NVIDIA Developer Blog, 2026.03.11)
학습 안정화 과정에서도 흥미로운 지점이 있습니다. WSD(Warmup-Stable-Decay) 학습률 스케줄의 안정 단계에서 체크포인트 품질 평가를 위해 별도의 decay 실행이 필요했는데, 대신 오프라인 체크포인트 병합 기법을 써서 약 4조 토큰 분량의 연산 비용을 아꼈다고 기술 보고서에 명시되어 있습니다. 이 결과로 12개 벤치마크 평균에서 원본 체크포인트보다 2~4점 높은 점수를 기록했습니다.
지금 무료로 쓰는 방법
접근 경로가 여러 개입니다
네모트론 3 슈퍼는 현재 허깅페이스에 오픈 웨이트로 공개돼 있습니다. BF16, FP8, NVFP4 세 가지 정밀도 버전이 모두 올라가 있어서 보유한 GPU 메모리에 따라 선택할 수 있습니다. FP8 버전은 H100 단일 GPU로도 구동 가능한 수준입니다. NVIDIA 오픈 모델 라이선스는 상업적 사용을 허용합니다.
직접 GPU를 돌릴 여건이 안 된다면 세 가지 무료·저비용 경로가 있습니다. build.nvidia.com은 별도 설치 없이 API 형태로 바로 테스트 가능하고, OpenRouter는 무료 티어에서 nvidia/nemotron-3-super-120b-a12b 모델로 접근됩니다. Perplexity Pro 구독자는 Computer 기능에서 20개 오케스트레이션 모델 중 하나로 선택해 쓸 수 있습니다.
클라우드 인프라에 올리려면 Google Cloud Vertex AI, Oracle Cloud Infrastructure는 지금 바로 사용 가능하고, Amazon Bedrock과 Microsoft Azure는 곧 추가 예정입니다. Dell Enterprise Hub에서는 온프레미스 배포용으로도 최적화된 버전을 제공합니다. (출처: NVIDIA 공식 블로그, 2026.03.11)
Q&A — 자주 나오는 질문 5가지
마치며
네모트론 3 슈퍼를 한 줄로 정리하면 이렇습니다. “가장 정확한 모델이 아니라, 에이전트 파이프라인에서 가장 효율적으로 돌아가도록 설계된 모델.” 7.5배 처리량은 8K 입력, 16K 출력이라는 조건에서의 수치이고, 극단적인 출력 장황함이 실사용에서 이 이점을 줄일 수 있습니다.
그럼에도 이 모델이 중요한 이유는 두 가지입니다. 첫째, 120B짜리를 H100 단 한 장으로 굴릴 수 있게 된다는 건 에이전트 시스템의 인프라 비용 구조를 바꿀 수 있는 수준입니다. 둘째, 가중치·데이터셋·훈련 레시피를 전부 공개했기 때문에 이 구조 위에서 자체 도메인 특화 모델을 만드는 게 이제 현실적인 선택지가 됩니다.
결론부터 말씀드리면, 범용 챗봇 용도라면 Qwen3.5-122B가 현재 더 나은 선택일 수 있습니다. 그런데 멀티에이전트 파이프라인을 구축하거나, 전체 코드베이스를 컨텍스트에 올려서 작업하는 목적이라면 네모트론 3 슈퍼가 오픈 모델 중 지금 시점에서 가장 현실적인 선택입니다.
📎 본 포스팅 참고 자료
- NVIDIA 공식 블로그 — Nemotron 3 Super 출시 발표 (2026.03.11)
https://blogs.nvidia.com/blog/nemotron-3-super-agentic-ai/ - NVIDIA Developer Blog — Nemotron 3 Super 아키텍처 상세 (2026.03.11)
https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/ - NVIDIA Research — Nemotron 3 Super 공식 연구 페이지 및 기술 보고서 (2026.03.10)
https://research.nvidia.com/labs/nemotron/Nemotron-3-Super/ - Maxime Labonne — “Nemotron 3 Super: NVIDIA’s gpt-oss killer?” 독립 분석 (2026.03.11)
https://maximelabonne.substack.com/p/nemotron-3-super-nvidias-gpt-oss - Anthropic — 멀티에이전트 시스템 토큰 증가 연구 보고서
https://www.anthropic.com/engineering/multi-agent-research-system
⚠️ 본 포스팅은 2026년 3월 19일 기준 공개된 공식 자료와 독립 분석을 바탕으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가용 플랫폼이 변경될 수 있습니다. 벤치마크 수치는 측정 환경·하드웨어·소프트웨어 버전에 따라 달라질 수 있으며, 실제 운영 환경 성능은 별도 검증이 필요합니다.


댓글 남기기