Nemotron 3 Super, 4가지 수치로 직접 확인했습니다

Published on

in

Nemotron 3 Super, 4가지 수치로 직접 확인했습니다

2026.03.11 출시 기준
Nemotron 3 Super v1.0
NVIDIA GTC 2026

Nemotron 3 Super, 4가지 수치로 직접 확인했습니다

NVIDIA가 2026년 3월 11일 공개한 Nemotron 3 Super는 총 파라미터 120B지만 실제 추론 시 활성 파라미터는 12.7B입니다. 그런데 Qwen3.5-122B 대비 처리량이 7.5배 높습니다. 숫자만 보면 앞뒤가 안 맞는 것 같지만, 공식 기술 보고서를 뜯어보면 왜 이게 가능한지 바로 보입니다. 오픈소스 모델이 상용 모델을 뛰어넘는 투명성 지수(83/100)를 받은 이유도 같이 확인했습니다.

7.5x
Qwen3.5-122B 대비 처리량
12.7B
실제 활성 파라미터 수
1M
컨텍스트 윈도우 (토큰)
83/100
Openness Index 점수

“120B 모델이 70B보다 빠르다” — 이 말이 사실인 이유

총 파라미터 수만 보면 Nemotron 3 Super(120B)가 Llama 3.3(70B)보다 두 배 가깝게 무겁습니다. 그런데 NVIDIA 공식 벤치마크에서 Nemotron 3 Super가 더 빠른 처리량을 기록합니다. 이게 어떻게 가능한지, 결론부터 말씀드리면 실제로 추론 시 켜지는 파라미터가 12.7B이기 때문입니다.

Mixture of Experts(MoE) 구조에서는 120B 전체가 동시에 활성화되지 않습니다. 입력 토큰마다 전문가 네트워크 중 일부만 선택적으로 활성화되는 방식이라, 실제 연산량은 12.7B 규모입니다. (출처: NVIDIA Nemotron 3 Super Technical Report, 2026.03.10)

이 10:1 비율이 바로 핵심입니다. 120B 전체를 로드해야 하지만, 토큰당 연산은 12.7B 수준으로 유지됩니다. 메모리 요구량은 크지만(87GB), 속도는 실질 활성 파라미터 기준으로 나옵니다.

▲ 목차로 돌아가기

세 가지 아키텍처가 한 몸에 — Mamba·트랜스포머·MoE

Nemotron 3 Super는 단일 아키텍처가 아닙니다. 88개 레이어 안에 Mamba-2, 트랜스포머 어텐션, Latent MoE 세 가지가 함께 들어가 있습니다. NVIDIA 기술 보고서에 레이어 배치까지 공개돼 있습니다. (출처: NVIDIA Research Labs, Nemotron-3-Super Technical Report, 2026.03.10)

💡 공식 발표문과 실제 레이어 구조를 같이 놓고 보니 이런 차이가 보였습니다

대부분의 소개 글은 “세 가지 아키텍처 조합”이라고 설명하지만, 실제로 Mamba-2 레이어가 다수를 차지하고 트랜스포머 어텐션 레이어는 소수입니다. 이 배치 덕분에 연산의 대부분이 선형 시간 복잡도로 처리됩니다. 즉, 입력 길이가 2배 늘어도 연산량이 4배가 아니라 2배 수준만 늘어납니다.

Mamba-2는 왜 빠른가. 트랜스포머 어텐션은 시퀀스 길이가 N이면 연산량이 N²으로 늘어납니다. Mamba-2는 고정 크기 상태를 유지하는 상태공간 모델(SSM)이라 N에 선형으로 비례합니다. 이 덕분에 실용적인 100만 토큰 컨텍스트가 가능합니다.

Latent MoE는 정확도를 어떻게 올리나. 일반 MoE는 전문가 네트워크를 전체 히든 차원에서 처리합니다. Latent MoE는 압축 공간에서 라우팅하고 4배 더 많은 전문가를 동일 비용으로 활성화합니다. 기존 MoE 대비 비용 증가 없이 정확도를 높인 구조입니다. (출처: NVIDIA Research, LatentMoE 논문, 2026)

▲ 목차로 돌아가기

공식 수치 4개, 직접 확인한 것과 확인 못 한 것

NVIDIA가 공개한 주요 수치와 제3자 벤치마크를 함께 놓고 보면, 조건이 다를 때 숫자가 어떻게 달라지는지 보입니다.

수치 공식 출처 조건 해석
7.5배 NVIDIA Research 8k 입력 / 16k 출력, Qwen3.5-122B 대비 긴 출력에서 효과 극대화
2.2배 NVIDIA Research 동일 조건, GPT-OSS-120B 대비 유사 규모 경쟁 모델 대비
11% Artificial Analysis 50k 입력 / 2k 출력, B200 GPU 8장 자체 테스트 실 서빙 환경에서는 격차 줄어듦
99.8% NVIDIA 내부 테스트 NVFP4 vs BF16 정확도 비교 4배 빠른데 정확도 손실 0.2%

⚠️ 7.5배 수치의 조건을 확인하세요. 이 수치는 8k 입력 / 16k 출력 설정에서 나온 것입니다. Artificial Analysis가 50k 입력 / 2k 출력으로 실제 서빙 환경에 가깝게 테스트했을 때 GPT-OSS-120B 대비 격차는 11% 수준이었습니다. (출처: Artificial Analysis, 2026.03.11)

DGX Spark에서 Ollama로 직접 실행한 결과는 평가 속도 19.5 tok/s(Q4_K_M 양자화 기준)로 확인됐습니다. 프롬프트 처리 속도는 3.51 tok/s였습니다. (출처: Saiyam Pathak 실측, Medium, 2026.03.14) 이 수치는 단일 사용자 기준이며, 배치 서빙 수치와 다릅니다.

▲ 목차로 돌아가기

에이전트 AI에서 왜 이 모델이 먼저 선택받나

멀티에이전트 워크플로우에서 토큰 소비량은 일반 채팅 대비 최대 15배까지 늘어납니다. (출처: Anthropic 멀티에이전트 연구 시스템 보고서 인용, NVIDIA 공식 블로그, 2026.03.11) 에이전트가 작업을 진행하면서 매 단계마다 전체 대화 이력, 도구 출력, 중간 추론 결과를 컨텍스트에 누적해야 하기 때문입니다.

💡 에이전트 비용 구조를 실제 수치로 놓고 보면 선택이 달라집니다

120B 파라미터 모델을 에이전트 서브태스크마다 호출하면 비용이 빠르게 쌓입니다. Nemotron 3 Super는 12.7B 활성 파라미터로 120B급 지능을 제공하기 때문에, 동일 예산으로 더 많은 에이전트 스텝을 처리할 수 있습니다.

100만 토큰 컨텍스트 윈도우도 에이전트 관점에서 중요합니다. 컨텍스트가 128k에서 끊기면 에이전트가 초기 목표를 잃어버리는 “goal drift” 문제가 생깁니다. 컨텍스트가 넉넉하면 에이전트가 전체 워크플로우 상태를 메모리에 유지합니다. (출처: NVIDIA 공식 블로그, 2026.03.11)

Perplexity는 자사 Computer 제품에서 Nemotron 3 Super를 20개 오케스트레이션 모델 중 하나로 이미 탑재했습니다. CodeRabbit, Factory, Greptile 같은 코드 리뷰 에이전트 서비스도 통합했습니다. (출처: NVIDIA 공식 블로그, 2026.03.11) 에이전트 AI 실서비스에서 이미 쓰이고 있다는 게 중요합니다.

▲ 목차로 돌아가기

오픈소스인데 투명성 83점 — 상용 모델보다 열려 있습니다

Artificial Analysis Openness Index에서 Nemotron 3 Super는 83점을 받았습니다. 이 지수에서 83점 이상을 받은 모델은 Ai2와 MBZUAI 계열뿐인데, 두 곳 모두 Nemotron 3 Super 수준의 성능을 갖추고 있지 않습니다. (출처: Artificial Analysis, 2026.03.11)

💡 오픈소스라고 다 같은 오픈소스가 아닙니다

Llama나 Qwen은 가중치(weights)만 공개합니다. NVIDIA는 사전학습 데이터셋(10조 토큰 이상), 강화학습 환경 15개, RL 데이터셋 37개, 완전한 학습 레시피까지 모두 공개했습니다. 충분한 컴퓨팅이 있다면 학습 과정 자체를 재현할 수 있다는 뜻입니다.

공개된 내용을 구체적으로 보면: 사전학습 데이터 25조 토큰(고유 10조), 추론 특화 10B 토큰 추가, 코딩 문제 1,500만 개, SFT 샘플 700만 개(4,000만 개 중 선별), RL 환경 롤아웃 120만 개. (출처: NVIDIA Nemotron 3 Super Technical Report, 2026.03.10) 이 수준의 공개는 이 성능대에서는 전례가 없습니다.

사전학습을 NVFP4 정밀도로 진행한 것도 주목할 만합니다. 대부분의 모델은 BF16으로 학습하고 나중에 양자화합니다. Nemotron 3 Super는 처음부터 FP4로 학습했고, NVFP4 가중치와 BF16 가중치의 정확도 차이가 중앙값 기준 0.2%입니다. 4배 빠른 추론에서 0.2% 손실이라는 수치가 그 결과입니다. (출처: NVIDIA 내부 테스트, Technical Report)

▲ 목차로 돌아가기

실제로 써보면 이런 부분이 아쉽습니다

처리량 수치가 인상적이지만, 실제 사용에서 걸리는 부분도 있습니다. 직접 사용한 커뮤니티 반응과 공식 문서를 교차해 정리했습니다.

첫째, 안전 필터가 상당히 보수적입니다. LocalLLaMA 커뮤니티에서 여러 사용자가 창작 맥락에서도 거부 응답을 받는 사례를 보고했습니다. (출처: Reddit r/LocalLLaMA, 2026.03.12) 엔터프라이즈 배포에는 오히려 장점이지만, 개인 개발자 용도로는 제약이 됩니다. 한 커뮤니티 멤버의 표현대로, “NVIDIA의 주요 고객은 20만 달러짜리 하드웨어 계약을 승인하는 기업 IT 부서”라는 시각이 모델 설계에 반영된 결과로 보입니다.

둘째, 컨텍스트 1M 설정에서 DGX Spark 메모리 한계가 있습니다. Ollama에서 컨텍스트를 최대치로 설정하면 CUDA OOM이 발생할 수 있습니다. DGX Spark 128GB 메모리에서 모델 87GB를 로드하면 41GB가 남는데, 1M 토큰 KV 캐시는 이 여유 메모리를 초과합니다. 실용적인 컨텍스트 범위는 16,384~262,144 토큰 수준입니다. (출처: Saiyam Pathak 실측, Medium, 2026.03.14)

셋째, Intelligence Index 점수가 Qwen3.5 122B보다 낮습니다. Artificial Analysis 기준으로 Nemotron 3 Super는 36점, Qwen3.5 122B A10B는 42점입니다. 처리량을 우선시하는 설계 선택의 결과입니다. 순수 정확도가 중요한 작업에서는 Qwen3.5가 우위에 있습니다. (출처: Artificial Analysis Intelligence Index, 2026.03.11)

⚠️ 어떤 작업에 맞는지 먼저 확인하세요. 에이전트 워크플로우, 긴 문서 처리, 기업 내부 온프레미스 배포에서는 강점이 분명합니다. 단순 채팅이나 단일 추론 정확도가 핵심인 작업이라면 Qwen3.5 122B가 더 적합할 수 있습니다.

▲ 목차로 돌아가기

지금 어디서 쓸 수 있나 — 접근 경로 정리

Nemotron 3 Super는 출시 당일(2026.03.11)부터 여러 경로로 접근이 가능했습니다. 각 경로의 특성을 정리합니다.

접근 방법 서비스/플랫폼 비고
API (무료 체험) build.nvidia.com API 키 없이 바로 사용 가능
API (무료 티어) OpenRouter 무료 레이어 포함
클라우드 서빙 Google Vertex AI, Oracle OCI 엔터프라이즈 배포
클라우드 서빙 Amazon Bedrock AWS 주간 소식(2026.03.26) 기준 탑재 발표
로컬 실행 Ollama (DGX Spark) 128GB 통합 메모리 필요, 19.5 tok/s
모델 파일 Hugging Face BF16, FP8, NVFP4 체크포인트 공개

추론 서비스 제공자로는 Cloudflare Workers AI, DeepInfra, Fireworks AI, Lightning AI, Modal 등이 있습니다. (출처: NVIDIA 공식 블로그, 2026.03.11) Perplexity에서는 검색과 Computer 기능을 통해 이미 Nemotron 3 Super에 접근할 수 있습니다.

▲ 목차로 돌아가기

자주 묻는 질문

Nemotron 3 Super를 RTX 4090에서 실행할 수 있나요?

RTX 4090의 VRAM은 24GB로, 87GB 모델을 올리기에 크게 부족합니다. 로컬 실행은 128GB 통합 메모리를 갖춘 DGX Spark나, B200 GPU 8장 이상 서버 환경에서 실용적입니다. 일반 데스크톱 환경에서는 API를 통한 접근이 현실적입니다.

7.5배 처리량이 일반 API 사용에서도 체감되나요?

7.5배 수치는 8k 입력 / 16k 출력 조건에서 나왔습니다. 실제 서빙 환경에 가까운 50k 입력 / 2k 출력 조건에서는 GPT-OSS-120B 대비 약 11% 높은 처리량이 측정됐습니다. (출처: Artificial Analysis, 2026.03.11) API 응답 속도는 서버 부하와 배치 크기에 따라 달라집니다.

Nemotron 3 Ultra는 언제 나오나요?

Artificial Analysis 보고서에서 Ultra는 총 약 500B 파라미터(활성 약 50B)로 예고돼 있습니다. 출시 일정은 NVIDIA가 공식 답변을 내놓지 않은 부분입니다. Nemotron 3 Nano(30B 총량, 3B 활성), Super(120B 총량, 12.7B 활성)에 이어 세 번째 모델입니다.

상업적으로 자유롭게 쓸 수 있나요?

허용적 라이선스(permissive license) 하에 공개됐습니다. 단, 라이선스 내용에 따라 특정 사용 방식에서 권리가 제한될 수 있습니다. 실제 라이선스 텍스트를 직접 확인하고 법무 검토를 거치는 것을 권합니다. (출처: Hugging Face NVIDIA Nemotron 3 Super 모델 카드)

한국어 성능은 어떻게 되나요?

공식 기술 보고서에 한국어 특화 벤치마크 수치는 포함돼 있지 않습니다. 공개된 벤치마크는 주로 영어 기반 추론, 코딩, 수학 과제입니다. 한국어 대응 수준은 이유가 아직 공개되지 않았으며, 직접 테스트를 통해 확인하는 것이 가장 정확합니다.

▲ 목차로 돌아가기

마치며 — 총평

Nemotron 3 Super는 “빠른 오픈 모델”이라는 기존 공식을 다소 비틀었습니다. 120B 규모이지만 실질 연산은 12.7B 수준이고, Qwen3.5-122B 대비 7.5배 처리량을 공식 수치로 제시했습니다. 처음엔 마케팅 수치처럼 보이지만, Artificial Analysis의 독립 벤치마크에서도 의미 있는 격차가 확인됩니다.

다만 이 모델이 모든 작업에 최적인 건 아닙니다. Intelligence Index에서 Qwen3.5 122B에 6점 뒤처지고, 안전 필터가 보수적이라는 피드백이 있습니다. NVIDIA가 명확히 설계 목표로 삼은 것은 에이전트 AI 워크플로우입니다. 그 범위 안에서는 현재 오픈 모델 중 가장 균형이 잘 잡혀 있습니다.

개인적으로는 NVIDIA가 학습 데이터와 레시피까지 공개한 점이 오히려 더 눈에 띕니다. 오픈소스라고 이름을 붙이면서 가중치만 내놓는 모델들이 많은 상황에서, 재현 가능한 수준으로 공개한 것은 다른 모델들에도 압박이 될 것입니다. Ultra가 예고돼 있으니, Super에서 보여준 방향성이 그대로 이어질지 지켜볼 만합니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. NVIDIA 공식 블로그 — Nemotron 3 Super 5x Higher Throughput for Agentic AI (https://blogs.nvidia.com/blog/nemotron-3-super-agentic-ai/)
  2. NVIDIA Research Labs — Nemotron 3 Super Technical Report PDF (https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf)
  3. NVIDIA Research Labs — Nemotron 3 Super 공식 페이지 (https://research.nvidia.com/labs/nemotron/Nemotron-3-Super/)
  4. Artificial Analysis — Nemotron 3 Super: The New Leader in Open, Efficient Intelligence (https://artificialanalysis.ai/articles/nvidia-nemotron-3-super-the-new-leader-in-open-efficient-intelligence)
  5. Saiyam Pathak — Nemotron 3 Super on DGX Spark 실측 보고 (Medium, 2026.03.14)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문의 수치와 기능 설명은 2026.03.11 출시 기준 / Nemotron 3 Super v1.0 기준으로 작성됐습니다. AI 서비스 업데이트로 실제 내용과 달라질 수 있으니 사용 전 공식 문서를 직접 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기