Nemotron 3 Super, 단일 GPU로 된다고요? 이 조건이 먼저입니다

Published on

in

Nemotron 3 Super, 단일 GPU로 된다고요? 이 조건이 먼저입니다

2026.03.11 출시
Nemotron 3 Super 기준
오픈웨이트

Nemotron 3 Super, 단일 GPU로 된다고요?
이 조건이 먼저입니다

NVIDIA가 2026년 3월 11일 공개한 Nemotron 3 Super는 “120B 파라미터 모델을 단일 GPU로 돌릴 수 있다”는 문장 하나로 AI 커뮤니티를 달궜습니다. 근데 공식 문서를 직접 파고들면 이 문장 바로 다음에 조건이 붙습니다. 오늘은 그 조건부터 짚겠습니다.

120B
총 파라미터
12B
실제 활성 파라미터
1M
컨텍스트 윈도우
2.2×
GPT-OSS-120B 대비 처리량

120B인데 왜 12B처럼 도나요 — 아키텍처의 핵심

Nemotron 3 Super는 총 120B 파라미터를 가지고 있지만, 실제 추론 시 활성화되는 파라미터는 12B에 불과합니다. 이게 가능한 이유가 LatentMoE(잠재 혼합전문가) 구조 때문입니다. 일반 MoE 구조는 토큰이 전체 임베딩 차원에서 전문가로 라우팅되는 반면, LatentMoE는 토큰을 더 작은 잠재 공간으로 먼저 압축한 다음 라우팅합니다. NVIDIA 공식 블로그에서 “동일한 추론 비용으로 4배 많은 전문가를 호출할 수 있다”고 직접 밝히고 있습니다. (출처: NVIDIA Developer Blog, 2026.03.11)

여기에 세 가지 레이어가 혼합됩니다. Mamba-2 레이어는 긴 시퀀스를 선형 시간 복잡도로 처리해서 100만 토큰 컨텍스트를 이론이 아닌 실제로 가능하게 만드는 기반입니다. MoE 레이어는 활성화 파라미터를 12B로 묶으면서 처리량을 유지하고, Transformer 어텐션 레이어는 정밀한 연상 기억과 단거리 의존성 처리에 개입합니다. 세 구조가 각자의 약점을 서로 보완하는 식입니다.

💡 공식 기술 레포트와 모델 카드를 같이 놓고 보니 이런 차이가 보였습니다 — Hugging Face 모델 카드 기본 컨텍스트 설정은 256K로 잡혀 있습니다. 1M 토큰을 쓰려면 별도 플래그를 직접 켜야 하는데, VRAM 요구량이 대폭 늘어난다는 사실이 홍보 문구 어디에도 잘 안 나옵니다. (출처: NVIDIA build.nvidia.com 모델카드, 2026.03.11)

추가로 MTP(Multi-Token Prediction) 기법도 탑재됐습니다. 한 번의 순전파에서 여러 토큰을 동시에 예측하는 구조인데, 학습 중에는 더 풍부한 그래디언트 신호를 주고, 추론 시에는 자체적인 추론 가속 역할을 합니다. NVIDIA는 이전 Nemotron Super 대비 처리량 5배 향상을 공식적으로 발표했습니다. (출처: NVIDIA Developer Blog, 2026.03.11)

▲ 목차로 돌아가기

단일 GPU 배포, 조건을 먼저 보세요

솔직히 말하면, “단일 GPU 배포 가능”이라는 표현은 절반만 맞습니다. 공식 모델 카드에는 최소 하드웨어 요구 사항으로 8× H100-80GB가 명시돼 있습니다. (출처: NVIDIA build.nvidia.com 모델카드, 2026.03.11) 단일 GPU 배포가 가능한 건 NVFP4 양자화 버전을 B200 또는 DGX Spark에서 실행하는 경우에만 해당합니다.

구성 GPU 최대 컨텍스트 비고
NVFP4 (B200 단일) 1× B200 1M 플래그 설정 필요
BF16 (H100 기준) 8× H100-80GB 256K (기본) 1M 시 추가 VRAM
DGX Spark (단일) 1× B200 1M NVFP4 기준

(출처: NVIDIA build.nvidia.com 모델카드, 2026.03.11 / reeboot.fr 분석, 2026.03.20)

비교 기준으로 한 가지를 짚으면, Mistral Small 4는 비슷한 수준의 MoE 구조에서 최소 2× H200이 필요합니다. NVFP4 학습 덕분에 메모리 요구량 자체가 낮아진 것은 맞습니다만, 이 이점을 누리려면 Blackwell 아키텍처 GPU가 전제입니다. H100 기반 인프라를 운영 중인 팀이라면 “단일 GPU”는 해당 사항이 없습니다.

💡 공식 발표문 흐름과 실제 배포 플로를 나란히 놓고 보면 — NVFP4 내용은 배포 가이드 중반부에 등장하지만, “단일 GPU” 문구는 마케팅 문서 첫 줄에 나옵니다. 순서가 바뀐 셈입니다.

▲ 목차로 돌아가기

공식 벤치마크 수치, 직접 읽어봤습니다

NVIDIA가 공개한 벤치마크를 Qwen3.5-122B A10B, GPT-OSS-120B와 나란히 놓으면 흥미로운 패턴이 보입니다. 전부 앞서는 게 아니라 영역마다 명확하게 갈립니다.

벤치마크 Nemotron 3 Super Qwen3.5-122B GPT-OSS-120B
MMLU-Pro (일반 지식) 83.73 86.70 81.00
HMMT Feb25 with tools 94.73 89.55
RULER @ 512K (장문) 95.67 95.95 46.70
RULER @ 1M (100만 토큰) 91.75 91.33 22.30
HLE no tools (최고난도) 18.26 25.30 14.90
SWE-Bench (OpenHands) 60.47 66.40 41.90

(출처: NVIDIA build.nvidia.com 모델카드, 2026.03.11)

GPT-OSS-120B는 512K 이상 장문에서 RULER 점수가 46.70으로 급락하는 반면, Nemotron 3 Super는 95.67로 거의 유지됩니다. 장문 처리가 필요한 작업이라면 경쟁이 되지 않습니다. 반대로 HLE(인류 최후의 시험)처럼 도메인 전문 지식 깊이를 요구하는 영역에서는 Qwen3.5-122B에 밀립니다.

Artificial Analysis 측정 기준으로 전반적 지능 지수는 36점으로, GPT-OSS-120B(33점)보다 앞서지만 Qwen3.5-122B(42점)에는 뒤집니다. (출처: Artificial Analysis, 2026.03.11) 즉, “오픈웨이트 모델 중 가장 효율적인 120B급”이지 “가장 똑똑한 120B급”은 아닙니다.

▲ 목차로 돌아가기

추론 모드 3가지, 쓰임새가 다릅니다

막상 해보면 다른 부분이 있습니다. 대부분 모델이 추론을 켜거나 끄는 두 가지 옵션만 있는 것과 달리, Nemotron 3 Super는 추론 깊이를 4단계로 조절할 수 있습니다. 이게 생산 환경에서 의외로 중요합니다.

① 추론 ON (기본값)

enable_thinking: True — 체인오브소트 추론 흔적을 먼저 생성한 뒤 최종 답변을 출력합니다. 복잡한 수학, 코드 분석, 다단계 에이전트 작업에 적합합니다.

② 추론 OFF

enable_thinking: False — 추론 흔적 없이 바로 응답합니다. 단순 조회, 챗봇 대화, 응답 지연이 더 중요한 상황에 씁니다.

③ 로우 에포트 추론

low_effort: True — 추론을 켜되 흔적 길이를 줄여 중간 수준 복잡도의 요청에서 레이턴시를 낮춥니다.

④ 예산 제어 추론

reasoning_budget: N — 추론 토큰 상한을 수동으로 지정합니다. 레이턴시 예산이 밀리초 단위로 고정된 프로덕션 환경에 유용합니다.

이 4단계 제어가 실제로 의미 있는 이유는 멀티에이전트 시스템에서 서브태스크마다 추론 깊이가 달라야 하기 때문입니다. 단순 정보 검색 스텝에는 추론을 끄고, 코드 디버깅 스텝에서만 추론을 켜는 방식으로 하나의 모델이 전체 파이프라인을 소화할 수 있습니다. 별도 모델을 두 개 운영할 필요가 없어집니다.

▲ 목차로 돌아가기

Qwen3.5-122B와 비교하면 이렇게 갈립니다

Artificial Analysis 실측 기준으로, 같은 8× NVIDIA B200 SXM 환경에서 Nemotron 3 Super(NVFP4)는 Qwen3.5-122B 대비 처리량이 약 40% 높습니다. 반대로 Artificial Analysis 지능 지수에서 Qwen3.5-122B는 6점 높습니다(42 vs 36). (출처: Artificial Analysis, 2026.03.11) 처리량과 지능 지수가 정반대 방향으로 갈리는 구조입니다.

💡 두 모델의 벤치마크 항목과 실제 추론 토큰 소비량을 함께 보면 — Nemotron 3 Super는 동일 평가 세트를 처리할 때 GPT-OSS-120B보다 약 40% 더 많은 출력 토큰을 씁니다. 정밀도를 얻는 대신 토큰 비용이 올라가는 구조입니다. (출처: Artificial Analysis, 2026.03.11)

NVIDIA가 보고한 처리량 우위(GPT-OSS-120B 대비 2.2배, Qwen3.5-122B 대비 7.5배)는 8K 입력 / 16K 출력 조건에서 측정된 수치입니다. (출처: NVIDIA Developer Blog, 2026.03.11) 멀티에이전트 시스템처럼 토큰 생성이 많은 환경과 문서 처리형 RAG에서 이 차이가 실제 운영 비용에 직접 반영됩니다.

반면 SWE-Bench 코딩 에이전트 성능(OpenHands 기준)에서는 Qwen3.5-122B가 66.40으로 Nemotron 3 Super의 60.47보다 앞섭니다. 코딩 에이전트 특화 작업만 본다면 Qwen3.5가 아직 우위입니다.

▲ 목차로 돌아가기

실제로 써야 하는 상황과 쓰지 말아야 할 상황

공식 문서와 실측 데이터를 교차해서 보면, Nemotron 3 Super가 진짜 힘을 발휘하는 상황이 꽤 구체적으로 좁혀집니다.

써야 할 상황

① 멀티에이전트 파이프라인을 대규모로 운영하는 경우. 공식 블로그에서 멀티에이전트 시스템은 일반 대화 대비 최대 15배 더 많은 토큰을 생성한다고 밝혔습니다. (출처: NVIDIA Developer Blog, 2026.03.11) 처리량이 2.2배 높다는 건 실제 운영 비용이 절반 이하로 떨어질 수 있다는 뜻입니다.

② 512K 토큰 이상 장문 처리가 필수인 경우. GPT-OSS-120B의 RULER @ 512K 점수는 46.70인 반면 Nemotron 3 Super는 95.67입니다. 경쟁이 되지 않습니다.

③ NVIDIA 인프라(H100/B200, vLLM, NeMo)를 이미 사용 중인 경우. NVFP4 커널이 Blackwell 아키텍처에 최적화돼 있어 타 인프라에서는 이 이점을 온전히 얻기 어렵습니다.

피해야 할 상황

① H100이 없고 B200도 없는 경우. 단일 GPU 배포 혜택을 받으려면 Blackwell 세대 GPU가 전제입니다. H100 기반에서는 공식 최소 사양이 8× H100-80GB입니다.

② 순수 코딩 에이전트 성능만 보는 경우. SWE-Bench 기준으로 Qwen3.5-122B(66.40)가 앞섭니다. 코드만 잘 짜면 된다면 대안을 먼저 검토하는 게 낫습니다.

③ 영어 이외 언어가 메인인 경우. 공식 모델 카드에 영어 SFT 샘플이 1,348만 개인 반면 다른 지원 언어는 각 5.3만 개 수준입니다. (출처: reeboot.fr 분석, 2026.03.20) 성능 편차가 실제로 클 수 있습니다.

▲ 목차로 돌아가기

Q&A

Q1. Nemotron 3 Super는 무료로 쓸 수 있나요?

NVIDIA Build에서 무료 프로토타이핑 액세스를 제공합니다. Perplexity는 Pro 구독 사용자에게 API로 접근 가능합니다. OpenRouter에서도 제공 중입니다. 모델 웨이트는 Hugging Face에서 무료로 내려받을 수 있으며, NVIDIA Nemotron Open Model License 하에 상업적 사용이 허용됩니다. 다만 라이선스 조항을 꼼꼼히 검토하는 것이 좋습니다. (출처: NVIDIA Developer Blog, 2026.03.11)

Q2. 120B인데 왜 12B처럼 빠른가요?

LatentMoE 구조 덕분입니다. 추론 시 실제로 계산에 참여하는 파라미터는 12B뿐이고, 나머지 108B는 필요할 때 선택적으로 활성화되는 전문가 가중치입니다. 여기에 Mamba-2 레이어가 시퀀스 처리를 선형 복잡도로 처리하고, MTP가 병렬 토큰 예측으로 생성 속도를 높입니다. 세 메커니즘이 겹쳐 이전 Nemotron Super 대비 처리량 5배 향상이 나옵니다. (출처: NVIDIA Developer Blog, 2026.03.11)

Q3. 한국어 처리 성능은 어떤가요?

공식 지원 언어 7개(영어, 프랑스어, 독일어, 이탈리아어, 일본어, 스페인어, 중국어)에 한국어는 포함돼 있지 않습니다. 사전 학습 데이터에 한국어가 일부 포함돼 있을 수 있지만, 공식적으로 한국어 성능을 보장하거나 벤치마크한 자료는 공개되지 않았습니다. (출처: NVIDIA build.nvidia.com 모델카드, 2026.03.11)

Q4. NVFP4 양자화를 적용하면 정확도 손실이 있나요?

NVIDIA 내부 테스트에서 NVFP4 모델이 BF16 베이스라인 대비 중앙값 정확도 99.8%를 달성했다고 밝혔습니다. (출처: Artificial Analysis, 2026.03.11) 다만 이 수치는 NVIDIA 자체 측정이며, 독립적인 제3자 검증은 아직 이루어지지 않았습니다. Artificial Analysis는 BF16 웨이트 기준으로 지능 지수를 측정했습니다.

Q5. Nemotron 3 Nano와 Super를 같이 쓰는 방식이 실제로 의미 있나요?

NVIDIA가 공식적으로 제안하는 “Super + Nano” 배포 패턴이 있습니다. 간단한 병합 요청이나 단일 스텝 작업은 Nano(30B 총 파라미터, 3B 활성)로 처리하고, 복잡한 다단계 코딩이나 계획 작업은 Super로 넘기는 구조입니다. 같은 아키텍처 패밀리이므로 통합 인프라에서 운영하기 수월하다는 것이 장점입니다. (출처: NVIDIA Developer Blog, 2026.03.11)

▲ 목차로 돌아가기

마치며

Nemotron 3 Super를 한 줄로 정리하면, “오픈웨이트 120B급 모델 중 처리량이 가장 높고, 장문 처리에서 압도적이지만, 그 이점을 받으려면 하드웨어와 목적이 딱 맞아야 한다”는 겁니다. 단일 GPU 배포, 100만 토큰 컨텍스트, NVFP4 학습이라는 세 가지 키워드가 동시에 성립하는 조건은 Blackwell 세대 GPU 환경에서만입니다.

이 모델이 특히 흥미로운 지점은 학습 자체를 4비트 정밀도로 시작했다는 점입니다. 후처리 양자화가 아니라 처음부터 NVFP4로 학습했다는 게 실제로 아키텍처 결정의 주류가 될 수 있음을 보여준 최초의 120B급 모델입니다. 다음 세대 모델들의 학습 방식이 어떻게 바뀔지 영향을 줄 수 있는 부분입니다.

써볼 여건이 된다면 NVIDIA Build에서 무료로 먼저 테스트하고, 실제 파이프라인 요구 사항과 대조해 보는 것이 가장 정직한 시작입니다. 수치는 조건 안에서만 의미가 있습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. NVIDIA Developer Blog — Introducing Nemotron 3 Super (https://developer.nvidia.com/blog/)
  2. NVIDIA build.nvidia.com — nemotron-3-super-120b-a12b 모델카드 (https://build.nvidia.com/nvidia/nemotron-3-super-120b-a12b/modelcard)
  3. Artificial Analysis — Nemotron 3 Super 분석 (https://artificialanalysis.ai/articles/)
  4. NVIDIA Nemotron 3 Super Technical Report PDF (https://research.nvidia.com/labs/nemotron/)
  5. reeboot.fr — Nemotron 3 Super 심층 리뷰 (https://reeboot.fr/en/blog/nvidia-nemotron-3-super)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 수록된 벤치마크 수치와 하드웨어 요구 사양은 2026년 3월 21일 기준 공개 자료를 바탕으로 하며, NVIDIA의 공식 업데이트에 따라 달라질 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기