Nemotron 3 Super, 오픈소스 1위라는 말이 절반만 맞습니다

Published on

in

Nemotron 3 Super, 오픈소스 1위라는 말이 절반만 맞습니다

2026.03.11 기준
Nemotron 3 Super 120B-A12B
TECH

Nemotron 3 Super, 오픈소스 1위라는 말이 절반만 맞습니다

NVIDIA가 GTC 2026에서 공개한 Nemotron 3 Super는 SWE-Bench Verified 60.47%로 오픈웨이트 코딩 모델 중 최고 점수를 기록했습니다. 처리량은 Qwen3.5-122B보다 7.5배 빠르다고 발표했죠. 그런데 막상 공식 기술 보고서와 실제 배포 환경을 같이 놓고 보면, 이 수치가 성립하는 조건이 굉장히 좁습니다.

60.47%
SWE-Bench Verified
(오픈웨이트 1위)
91.75%
RULER@1M
(GPT-OSS는 22.3%)
12B
실제 활성 파라미터
(총 120B 중)
1M
네이티브 컨텍스트
윈도우 토큰 수

120B인데 왜 12B처럼 빠를까 — 아키텍처 핵심

Nemotron 3 Super는 총 1,200억 파라미터지만, 토큰 하나를 처리할 때 실제로 활성화되는 건 127억 파라미터뿐입니다. 이게 가능한 건 LatentMoE라는 새로운 MoE 아키텍처 덕분인데, 기존 MoE가 토큰을 그대로 전문가(Expert)에 보내는 것과 달리, 여기서는 토큰을 먼저 더 작은 잠재 공간(Latent Space)으로 압축한 뒤 전문가에게 보냅니다.

압축하면 통신 비용이 줄어드니까, 같은 연산 비용으로 4배 더 많은 전문가를 호출할 수 있습니다. 전문가 수가 늘면 모델이 “Python 문법”, “SQL 로직”, “보안 취약점 탐지” 같은 세부 영역에 더 정밀하게 특화될 수 있죠. 공식 기술 보고서에는 이 구조를 “동일한 추론 비용에서 정확도와 파라미터 효율을 동시에 높이는 설계”라고 명시합니다. (출처: NVIDIA Nemotron 3 Super Technical Report, 2026.03.11)

여기에 Mamba-2 레이어가 더해집니다. 일반 Transformer의 Attention은 시퀀스 길이가 늘어날수록 메모리가 제곱으로 증가하는데, Mamba는 일정한 메모리로 처리합니다. 이 덕분에 100만 토큰 컨텍스트를 이론이 아닌 실제로 쓸 수 있게 됩니다. 그리고 MTP(Multi-Token Prediction)로 한 번에 여러 토큰을 예측하면서 투기적 디코딩(Speculative Decoding) 속도까지 끌어올립니다.

💡 공식 발표문과 아키텍처 설계 원리를 같이 놓고 보니 이런 차이가 보였습니다 — 같은 MoE라도 토큰을 어디서 압축하느냐에 따라 전문가를 얼마나 활용할 수 있는지가 완전히 달라집니다. LatentMoE는 이 압축 시점을 앞당겨서 기존 MoE 대비 4배 많은 전문가를 동일 비용에 쓰는 구조입니다.

▲ 목차로 돌아가기

SWE-Bench 60.47%, 이 수치가 성립하는 조건

Nemotron 3 Super의 SWE-Bench Verified 60.47%는 현재 오픈웨이트 모델 중 가장 높은 점수입니다. (출처: NVIDIA Nemotron 3 Super Technical Report, 2026.03.11) 숫자만 보면 클로즈드 프론티어 모델에 버금가는 수준처럼 보이는데, 이 점수에는 숨은 조건이 있습니다.

SWE-Bench는 실제 GitHub 이슈를 해결하는 벤치마크인데, 어떤 에이전트 스캐폴드(Agent Scaffold)를 쓰느냐에 따라 점수가 크게 달라집니다. Nemotron 3 Super의 60.47%는 OpenHands 스캐폴드 기준이고, 경쟁 모델인 Qwen3.5-122B의 66.40%는 SWE-Agent 스캐폴드 기준입니다. 같은 문제를 서로 다른 도구로 풀었다는 뜻이라서, 두 수치를 직선으로 비교하면 오해가 생깁니다. (출처: stackbuiltai.com/nemotron-3-super-review-2026/)

Qodo의 코드 리뷰 평가에서는 다른 결과가 나오기도 했습니다. Nemotron 3 Super가 코드 리뷰 정밀도(Precision) 73.4%로 Qwen3.5-397B의 66.4%와 GPT-OSS-120B의 46.9%를 모두 앞질렀습니다. 정밀도가 높다는 건 “틀린 경고”를 덜 낸다는 뜻인데, 개발자 신뢰도 측면에선 재현율보다 이게 더 중요합니다. (출처: stackbuiltai.com/nemotron-3-super-review-2026)

💡 벤치마크 출처를 같이 내놓고 보니 이런 패턴이 보였습니다 — “오픈소스 1위”는 특정 스캐폴드 기준이고, 다른 평가 방식에선 Qwen3.5가 앞서는 항목이 더 많습니다. 어떤 작업을 기준으로 비교하느냐에 따라 1위 모델이 달라집니다.

▲ 목차로 돌아가기

7.5배 처리량, 실제로 재봤더니 다릅니다

NVIDIA 공식 발표에서 가장 많이 언급된 수치가 “Qwen3.5-122B 대비 7.5배 높은 처리량”입니다. 이 수치는 공식 기술 보고서에 명시된 수치이긴 하지만, 적용 조건이 있습니다. “8K 입력 / 64K 출력, NVIDIA B200 GPU, TRT-LLM 또는 vLLM 프레임워크 기준”입니다. (출처: NVIDIA Nemotron 3 Super Technical Report, 2026.03.11) B200은 데이터센터급 Blackwell 칩이라서, 소비자용 RTX 5090이나 DGX Spark는 해당 사항이 없습니다.

실제 커뮤니티 검증을 보면 온도 차이가 큽니다. Hugging Face의 Nemotron 3 Super 공개 토론에서 DGX Spark 환경의 사용자가 보고한 실측 속도는 초당 15~17토큰입니다. 반면 같은 환경에서 Qwen3.5-122B는 AutoRound 양자화를 적용하면 약 3배 빠르게 돌아간다는 보고도 있습니다. NVIDIA가 공식 답변을 내놓지 않은 부분입니다. (출처: Hugging Face Nemotron-3-Super-120B-A12B-NVFP4 Discussions)

핵심은 NVFP4 양자화입니다. Nemotron 3 Super는 훈련 단계부터 NVFP4 정밀도로 학습한 최초의 모델인데, 이 포맷의 속도 이점이 완전히 구현되려면 B200 이상의 Blackwell 아키텍처가 필요합니다. H100 이하 하드웨어에서는 NVFP4의 하드웨어 가속이 충분히 작동하지 않습니다.

비교 항목 Nemotron 3 Super Qwen3.5-122B
처리량 (B200 공식) 기준값 (1.0) 약 0.13배 (7.5배 느림)
처리량 (DGX Spark 실측) 15~17 tok/s 약 3배 더 빠름
SWE-Bench Verified 60.47% (OpenHands) 66.40% (SWE-Agent)
GPQA (과학 추론) 79.23% 86.60%
RULER@1M (장문 처리) 91.75% 128K 하드 한계 (1M 불가)
코드 리뷰 정밀도 (Qodo) 73.4% 66.4% (397B 기준)

출처: NVIDIA Technical Report 2026.03.11 / stackbuiltai.com / Qodo 독립 평가 / HuggingFace 커뮤니티

▲ 목차로 돌아가기

Qwen3.5-122B와 직접 비교 — 어떤 경우에 역전되나

Nemotron 3 Super가 Qwen3.5-122B보다 확실하게 앞서는 영역은 딱 두 가지입니다. 하나는 100만 토큰 이상의 장문 컨텍스트고, 다른 하나는 NVIDIA 인프라에서의 처리량입니다. RULER@1M 점수를 보면 Nemotron 3 Super가 91.75%인 반면, Qwen3.5는 기본 128K 컨텍스트 한계가 있어서 이 벤치마크 자체를 수행할 수 없습니다. 에이전트가 대형 코드베이스 전체를 컨텍스트에 올려야 한다면, Nemotron이 사실상 유일한 오픈웨이트 선택지입니다.

반면 Qwen3.5가 앞서는 영역이 더 많습니다. MMLU-Pro에서 Qwen3.5가 86.70%, Nemotron 3 Super가 83.73%, GPQA 과학 추론에서 Qwen3.5가 86.60% 대 79.23%, 그리고 대부분의 TauBench 도구 사용 과제에서도 Qwen3.5가 우세합니다. (출처: stackbuiltai.com/nemotron-3-super-review-2026/) 일반 지식과 범용 에이전트 작업에서는 Qwen3.5가 더 넓게 쓸 수 있습니다.

GPT-OSS-120B와 비교하면 판세가 달라집니다. 특히 SWE-Bench Multilingual에서 Nemotron 3 Super가 45.78%로 GPT-OSS-120B의 30.80%를 크게 앞섰는데, 영어 외 언어로 작성된 코드베이스를 다룰 때 의미 있는 차이입니다. (출처: stackbuiltai.com/nemotron-3-super-review-2026/) 비영어권 코드를 많이 다루는 팀이라면 이 수치가 가장 중요한 기준이 됩니다.

▲ 목차로 돌아가기

코드 리뷰에 실제로 써봤더니 이랬습니다

AI 코드 리뷰 서비스인 Greptile이 공개한 평가 결과를 보면 숫자보다 더 구체적인 장면이 있습니다. 19개 파일, 134KB 규모의 diff를 입력했을 때 Nemotron 3 Super는 12.5초, 2번의 도구 호출만으로 코드 리뷰를 완료하면서 3개의 실질적 버그를 잡아냈습니다. 그중 가장 중요한 건 리팩터링 과정에서 CORS 헤더 설정 전에 출처(Origin) 확인 로직이 사라진 보안 회귀 버그였습니다. (출처: greptile.com/blog/nvidia-nemotron-super-in-code-review, 2026.03.11)

12.5초는 빠른 숫자입니다. 대형 프론티어 모델 대비 10분의 1 크기(활성 파라미터 기준)이면서 이런 결과를 낸 건 주목할 만합니다. 다만 Greptile의 평가도 모델이 patch 자체에 가까운 범위의 이슈에 강했고, 더 넓은 컨텍스트를 필요로 하는 코멘트는 커버리지가 얇았다고 밝혔습니다. 완벽한 리뷰어가 아니라 “첫 번째 패스 리뷰어”로 포지셔닝하면 현실적입니다.

CodeRabbit은 맥락 수집과 요약 단계에 Nemotron 3 Super를 도입했는데, 그 이유로 1M 컨텍스트 윈도우와 MTP 기반 빠른 추론을 꼽았습니다. 단일 모델로 모든 걸 처리하기보다, 무거운 컨텍스트 로딩은 Nemotron 3 Super가 맡고 최종 판단은 더 강력한 모델에 넘기는 파이프라인 방식입니다.

▲ 목차로 돌아가기

지금 당장 쓸 수 있는 사람과 기다려야 하는 사람

Nemotron 3 Super의 NVFP4 포맷은 NVIDIA Blackwell 아키텍처에 최적화되어 있습니다. 데이터센터용 B200에서는 FP8 대비 4배 빠른 추론 속도를 냅니다. 그런데 RTX 5090, DGX Spark, RTX Pro 6000 같은 소비자용 혹은 워크스테이션 Blackwell에서는 NVFP4 최적화가 제대로 작동하지 않는 상태입니다. 커뮤니티에서 관련 문제를 NVIDIA에 보고하고 있지만, 현재까지 공식 답변이 없습니다. (출처: Hugging Face Nemotron-3-Super 토론, HF ID 13)

지금 당장 쓸 수 있는 경우는 명확합니다. ① Perplexity Pro 구독자는 API 또는 웹 UI로 바로 접근할 수 있고, ② build.nvidia.com에서 무료로 테스트 가능하며, ③ OpenRouter에서 무료 플랜으로도 호출됩니다. ④ AWS, GCP, Azure의 GPU 클라우드 인스턴스에서 H100 이상을 임대해 FP8 체크포인트로 돌리면 안정적입니다. 자체 호스팅을 원하는 경우에는 FP8 체크포인트를 쓰는 게 현실적인 선택입니다.

기다려야 하는 경우도 있습니다. RTX 5090이나 DGX Spark를 갖고 있으면서 NVFP4 네이티브 속도를 기대한다면, 커뮤니티 기반의 비공식 컨테이너로 어느 정도 보완할 수 있지만 공식 최적화 지원이 이루어질 때까지는 발표된 처리량 수치가 나오지 않습니다. Nemotron 3 Ultra도 아직 출시 전이라서, 최고 성능이 필요하다면 기다리는 선택도 있습니다.

지금 바로 사용 가능한 접근 방법

▲ 목차로 돌아가기

자주 묻는 것들

Nemotron 3 Super는 무료로 쓸 수 있나요?
오픈웨이트 모델이라 HuggingFace에서 가중치를 무료로 내려받을 수 있습니다. build.nvidia.com에서 무료 체험도 가능하고, OpenRouter를 통해 무료 API 호출도 됩니다. 상업적 이용은 NVIDIA Nemotron Open Model License 조건을 확인해야 합니다. (출처: NVIDIA Developer Blog, 2026.03.11)
일반 RTX GPU에서도 돌릴 수 있나요?
FP8 또는 GGUF 양자화 버전을 쓰면 RTX 시리즈에서도 구동은 됩니다. 다만 NVIDIA가 발표한 처리량 수치는 Blackwell B200 기준이라서, RTX 5090이나 4090에서는 그보다 느리게 돌아갑니다. NVFP4 포맷의 하드웨어 가속은 현재 B200에서만 온전히 작동합니다.
Qwen3.5-122B보다 Nemotron 3 Super가 코딩에 더 낫나요?
코드 리뷰 정밀도(Qodo 기준 73.4%)와 LiveCodeBench(81.19%)에서는 Nemotron이 앞섭니다. 반면 Qwen3.5는 SWE-Bench Verified에서 다른 스캐폴드 기준이지만 66.40%를 기록하고 있고, GPQA 과학 추론에서도 앞섭니다. “코딩”의 어떤 세부 작업을 주로 하는지에 따라 선택이 달라집니다.
100만 토큰 컨텍스트가 실제로 필요한 경우가 있나요?
중대형 코드베이스 전체, 법률·금융 문서 수백 페이지, 다중 에이전트가 쌓은 긴 대화 이력 처리 같은 경우에 실용적으로 필요합니다. GPT-OSS-120B는 같은 조건에서 RULER@1M 22.3%로 사실상 무너지는데, Nemotron 3 Super는 91.75%를 유지합니다. (출처: NVIDIA Technical Report 2026.03.11) 100만 토큰이 일상적 용도라면 Nemotron이 현재 오픈웨이트 중 유일한 선택지에 가깝습니다.
파인튜닝도 가능한가요?
가능합니다. NVIDIA가 LoRA SFT와 GRPO/DAPO 쿡북을 공개했고, Unsloth에서도 파인튜닝 가이드를 지원합니다. 가중치, 데이터셋, 훈련 레시피가 모두 공개되어 있어서 도메인 특화 모델을 직접 만들 수 있습니다. 다만 120B 모델이라 파인튜닝에도 H100 이상 급의 GPU가 필요합니다.

마치며 — 쓸 사람과 보는 사람이 갈립니다

Nemotron 3 Super는 잘 만들어진 모델입니다. 특히 100만 토큰 네이티브 컨텍스트와 LatentMoE 아키텍처는 오픈웨이트 공간에서 처음 보는 조합이고, SWE-Bench에서 오픈소스 최고점을 찍은 건 사실입니다. 다만 그 수치들에는 하드웨어 조건과 평가 스캐폴드 조건이 붙어 있고, 막상 소비자용 Blackwell 기기에서는 공식 처리량이 나오지 않는 현실이 존재합니다.

솔직히 말하면, 지금 당장 이 모델이 빛나는 경우는 꽤 좁습니다. NVIDIA 인프라 기반의 멀티 에이전트 파이프라인을 구축하거나, 100만 토큰 장문 처리가 필수이거나, 비영어권 코드베이스를 다루는 팀이라면 진지하게 검토할 가치가 있습니다. 반면 범용 코딩 어시스턴트를 찾는다면 Qwen3.5-122B가 더 넓은 선택지입니다.

더 중요한 흐름은 NVIDIA가 이 모델 하나로 끝낼 생각이 없다는 점입니다. Nemotron Coalition 발표와 Nemotron 3 Ultra 예정, 그리고 Amazon Bedrock과의 파인튜닝 통합까지 – Nemotron 3 Super는 NVIDIA가 오픈웨이트 생태계의 중심 인프라가 되겠다는 포지셔닝의 시작처럼 읽힙니다. 그 흐름이 이어질지는 앞으로 몇 달이 보여줄 것입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. NVIDIA Developer Blog — Introducing Nemotron 3 Super (developer.nvidia.com)
  2. NVIDIA Nemotron 3 Super Technical Report PDF (research.nvidia.com)
  3. Greptile — Hands-On Evaluation of NVIDIA Nemotron 3 Super (greptile.com)
  4. StackBuiltAI — Nemotron 3 Super Review 2026 (stackbuiltai.com)
  5. HuggingFace 커뮤니티 토론 — NVFP4 실측 성능 이슈 (huggingface.co)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 벤치마크 수치 및 가격 정보는 2026년 3월 22일 기준이며, NVIDIA의 정책 업데이트에 따라 달라질 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기