Nemotron 3 Super, 이 조건에서만 앞섭니다

Published on

in

Nemotron 3 Super, 이 조건에서만 앞섭니다

2026.03.11 출시 기준
Nemotron 3 Super 120B-A12B
NVFP4 / BF16 병행

Nemotron 3 Super, 이 조건에서만 앞섭니다

NVIDIA가 2026년 3월 11일 공개한 오픈 모델. 벤치마크 숫자만 보면 강력해 보입니다. 그런데 실제 배포 현장에서 나온 데이터를 같이 놓고 보니 이야기가 달라졌습니다.

120B / 12B 활성
전체/추론 시 활성 파라미터
5× 처리속도
이전 Nemotron Super 대비
1M 토큰
컨텍스트 윈도우
오픈 가중치
퍼미시브 라이선스

Nemotron 3 Super가 풀려는 문제가 뭔가요?

결론부터 말씀드리면, 이 모델은 “챗봇 성능”이 아니라 멀티 에이전트 시스템에서의 비용과 속도 문제를 타깃으로 만들어졌습니다. 단순 대화 성능을 최대화하는 방향이 아닙니다.

멀티 에이전트 환경에서는 에이전트들이 서로 대화 기록, 툴 호출 결과, 중간 추론 내용을 주고받습니다. NVIDIA 공식 블로그에 따르면 이 과정에서 생성되는 토큰 수는 단일 챗봇 대비 최대 15배 많습니다. (출처: NVIDIA Developer Blog, 2026.03.11)

여기서 두 가지 문제가 생깁니다. 첫째는 컨텍스트 폭발입니다. 워크플로우가 길어질수록 누적된 토큰이 비용을 급격히 끌어올리고, 에이전트가 처음 목표를 잃어버리는 “목표 이탈(goal drift)” 현상이 발생합니다. 둘째는 추론 세금(thinking tax)입니다. 모든 판단 단계마다 대형 모델을 돌리면 속도와 비용 모두 실용 한계를 벗어납니다. Nemotron 3 Super는 이 두 문제를 동시에 해결하겠다는 설계 의도로 출발했습니다.

▲ 목차로 돌아가기

아키텍처: 왜 이렇게 만들었을까요

하이브리드 Mamba-Transformer MoE 구조

Nemotron 3 Super는 세 가지 핵심 설계를 결합했습니다. 전통적인 트랜스포머 레이어가 복잡한 추론을 담당하고, Mamba 레이어가 메모리·연산 효율을 4배 끌어올립니다. 두 가지를 섞어 쓰는 방식입니다. (출처: NVIDIA Developer Blog, 2026.03.11)

설계 요소 역할 효과
Hybrid MoE 120B 중 12B만 추론 시 활성화 연산비용 대폭 절감
LatentMoE 1 전문가 비용으로 4 전문가 활성 정확도 2배 향상
Multi-Token Prediction 다음 단어를 동시에 여러 개 예측 추론 속도 3배 가속
NVFP4 정밀도 Blackwell GPU 전용 4비트 포맷 Hopper FP8 대비 4배 빠른 추론

이 조합이 의미하는 것은, 동일 크기 모델 대비 GPU 1개당 처리량에서 경쟁 모델을 앞설 수 있다는 겁니다. 실제로 Artificial Analysis 독립 벤치마크에서 8×B200-SXM 환경 기준 gpt-oss-120b(MXFP4) 대비 처리량 11% 우위가 측정됐습니다. (출처: Artificial Analysis, 2026.03.11)

▲ 목차로 돌아가기

벤치마크 숫자, 그런데 비교 기준이 이겁니다

💡 공식 발표문과 독립 벤치마크를 같이 놓고 보니 이런 차이가 보였습니다. NVIDIA 측 수치와 제3자 측정값이 다른 지점이 있습니다.

같은 크기 모델과 비교하면 이렇습니다

Artificial Analysis Intelligence Index 기준 Nemotron 3 Super는 36점을 기록했습니다. gpt-oss-120b(33점)보다는 앞섭니다. 그런데 최근 출시된 Qwen3.5 122B A10B는 42점으로 6점 앞서 있습니다. (출처: Artificial Analysis, 2026.03.11) 6점 차이가 크게 보이지 않을 수 있지만, Qwen3.5 122B A10B는 동시에 GPU당 처리량에서 Nemotron 3 Super보다 40% 낮습니다. 즉, 정확도와 처리 효율 사이의 트레이드오프가 명확히 존재합니다.

전체 모델 크기 기준으로 보면 격차는 더 벌어집니다. 현재 오픈 모델 시장에는 GLM-5(744B/40B 활성), Qwen3.5 397B A17B, Kimi K2.5(1T/32B 활성)처럼 Nemotron 3 Super보다 3~8배 큰 모델들이 있습니다. 이들과 정확도를 직접 비교하면 Nemotron 3 Super가 앞선다고 말하기 어렵습니다.

에이전트 태스크 전용 벤치마크에서는

Terminal-Bench Hard(실제 터미널 작업 기반 에이전트 벤치마크)에서 Nemotron 3 Super는 29%를 기록했습니다. 또한 실제 업무 작업 기반 에이전트 성능 지표인 GDPval-AA에서는 ELO 1027을 달성했습니다. (출처: Artificial Analysis, 2026.03.11) 이 수치들은 에이전트 전용 모델로서의 방향성을 보여주지만, 절대적인 성능 우위를 증명하는 수치는 아닙니다.

▲ 목차로 돌아가기

실제 배포에서 나온 이야기들

💡 벤치마크는 통과했는데 실전에서 막히는 사례가 여러 개 확인됐습니다. 특히 소규모 모델(Nano 4B 계열)에서 지시 따르기 실패가 집중됩니다.

코드 리뷰 에이전트에서는 좋은 결과가 나왔습니다

코드 리뷰 도구 Greptile은 134KB diff / 19개 파일 규모의 실제 PR에서 Nemotron 3 Super를 테스트했습니다. 결과는 12.5초 내, 2회 툴 호출로 유의미한 버그 5개(그 중 3개 핵심)를 찾아냈습니다. CORS 회귀 버그처럼 코드 정리 PR에서 실제로 빠지기 쉬운 보안 이슈까지 포착했습니다. (출처: Greptile 공식 블로그, 2026.03.11) 이 수치가 의미하는 건, 코드 패치 자체에서 직접 읽어낼 수 있는 유형의 버그 탐지에서는 훨씬 큰 모델 수준의 결과를 낸다는 것입니다.

그런데 명령 지시를 따르지 않는 경우가 있었습니다

Reddit LocalLLaMA 커뮤니티(2026.03.17)에서 한 사용자는 Nemotron Super 120B에게 “SSH 명령을 실행해달라”는 지시를 줬더니, 해당 시스템이 자신의 것이라고 직접 알려줬음에도 반복적으로 거절했다고 밝혔습니다. 같은 작업에서 Qwen3.5 122B는 Claude 4.6 워크플로우를 대체할 만큼 충분히 작동했습니다. 이 실패는 모델이 과도하게 안전 지침을 따르도록 훈련됐을 가능성을 보여줍니다.

또 다른 사용자는 Nemotron 3 Nano 4B에서 구조화 출력 지시를 따르지 못하는 사례를 확인했습니다. 14줄 수도코드를 요청했더니 실제 내용 6줄 + “#” 8줄로 형식만 채우는 방식으로 응답했습니다. 이런 실패는 단순 능력의 문제가 아니라, 긴 지시 형식 제약을 정확히 실행하는 훈련 정렬의 문제로 이어집니다.

정리하면, Nemotron 3 Super(120B)는 코드 패치 분석, 장기 컨텍스트 유지가 필요한 에이전트 워크플로우에서는 강점이 확인됩니다. 반면 세밀한 지시 형식 추종이나 특정 agentic 명령 실행에서는 동급 크기 경쟁 모델 대비 아직 차이가 있는 상태입니다.

▲ 목차로 돌아가기

오픈이라는 말 뒤에 있는 것

💡 NVIDIA가 가중치·학습 데이터·강화학습 환경까지 모두 공개했습니다. 그런데 이 “개방”이 어떤 방향을 향하는지 살펴보면 단순 오픈소스와는 다른 그림이 나옵니다.

공개 범위는 실제로 넓습니다

NVIDIA는 Nemotron 3 Super와 함께 사전 학습·사후 학습·강화학습 데이터셋 10조 토큰 이상과 강화학습 환경 15개를 공개했습니다. Artificial Analysis Openness Index에서 83점을 기록했으며, 이는 Ai2·MBZUAI를 제외하면 사실상 최고 수준의 개방성입니다. (출처: Artificial Analysis, 2026.03.11) 이 수치가 의미하는 것은, 실제로 직접 파인튜닝하거나 파생 모델을 만들려는 연구자에게는 거의 완전한 재현 가능성이 열려 있다는 겁니다.

그런데 최대 성능은 Blackwell에서만 납니다

가중치는 퍼미시브 라이선스로 공개됐지만, NVFP4 정밀도를 활용한 최대 성능은 NVIDIA Blackwell 아키텍처에서만 가능합니다. NVIDIA 공식 발표에 따르면 NVFP4는 Hopper FP8 대비 최대 4배 빠른 추론을 제공합니다. (출처: NVIDIA Developer Blog, 2026.03.11) 다른 하드웨어에서는 BF16으로 돌려야 하며, 이때 성능과 비용 효율은 다른 수치로 나옵니다. 모델이 오픈이라도, 그 모델이 설계 목표치를 내려면 결국 NVIDIA 칩이 필요하다는 구조입니다.

이 지점이 기존 오픈소스 모델과 결이 다릅니다. 오픈 가중치는 누구든 가져다 쓸 수 있지만, 오픈 가중치의 최대 효율은 특정 하드웨어 생태계 안에서만 실현됩니다. 모델을 먼저 배포하고, 최적 성능을 위해 인프라 선택을 유도하는 방식입니다.

▲ 목차로 돌아가기

어디서 쓸 수 있고, 어디서는 안 됩니까

지금 당장 사용 가능한 경로

2026년 3월 11일 기준 이미 사용 가능한 플랫폼은 build.nvidia.com, Perplexity(Computer 에이전트 내 20개 오케스트레이션 모델 중 하나로 탑재), OpenRouter(무료 tier 포함), Hugging Face(FP8 버전)입니다. 클라우드 기준으로는 Google Cloud Vertex AI와 Oracle Cloud Infrastructure에서 즉시 접근 가능합니다. AWS Bedrock과 Microsoft Azure는 출시 당시 기준 “곧 추가 예정(coming soon)” 상태입니다. (출처: NVIDIA 공식 보도자료, 2026.03.11)

이 상황에 맞는 모델입니다

✅ 적합한 케이스
  • 멀티 에이전트 오케스트레이션
  • 긴 코드베이스 전체 컨텍스트 분석
  • 수천 페이지 문서 단일 컨텍스트 로딩
  • 비용 민감한 기업 에이전트 배포
  • 온프레미스 보안 요구 환경
⚠️ 주의가 필요한 케이스
  • 정밀 JSON/구조화 출력 파이프라인
  • 특정 agentic 시스템 명령 실행
  • 비 Blackwell GPU에서 최대 효율 기대
  • 범용 챗봇·일반 지시 추종 태스크
  • 소규모 모델(Nano 4B) 정밀 포맷 작업

확인 필요: AWS Bedrock 및 Microsoft Azure 정식 지원 시점은 2026년 3월 19일 현재 공식 발표 없음. 실제 사용 전 각 플랫폼 공식 문서에서 지원 여부를 확인할 것.

▲ 목차로 돌아가기

자주 묻는 것들

Nemotron 3 Super와 Qwen3.5 122B 중 무엇을 써야 하나요?

에이전트 워크플로우에서 비용·처리 효율이 우선이면 Nemotron 3 Super가 유리합니다. Artificial Analysis 기준 GPU당 처리량에서 11% 앞서고(gpt-oss-120b 대비), 1M 토큰 컨텍스트로 장기 작업에서 목표 이탈을 줄입니다. 반면 정확도 자체가 우선이거나 세밀한 지시 추종이 필요한 업무라면 Qwen3.5 122B(Intelligence Index 42 vs 36)를 먼저 테스트해보는 게 낫습니다.

무료로 사용할 수 있나요?

build.nvidia.com과 OpenRouter에서 무료 tier로 접근 가능합니다. Hugging Face에서는 FP8 가중치를 직접 다운로드할 수 있으며, 라이선스는 퍼미시브입니다. 단, 자체 서버에서 최대 성능을 내려면 NVIDIA Blackwell GPU가 필요합니다. 클라우드 API 사용은 DeepInfra, Lightning AI, Fireworks AI 등 서드파티에서 유료로 제공됩니다.

1M 토큰 컨텍스트가 실제로 유용한 경우는 언제인가요?

코드베이스 전체를 단일 컨텍스트에 올려놓고 분석하거나, 수천 페이지 분량의 금융 보고서를 재요약 없이 한 번에 처리할 때 실질적 차이가 납니다. 멀티 에이전트 시스템에서는 중간 결과와 툴 호출 기록이 누적되면서 컨텍스트가 급격히 커지는데, 이 상황에서 목표 이탈 없이 작업을 완료하는 데 유효합니다. 단순 질문·답변 챗봇에서는 사실상 의미 없는 수치입니다.

Nemotron 3 Ultra는 언제 나오나요?

NVIDIA 공식 발표 기준 Nemotron 3 Ultra(약 500B 전체, 50B 활성)는 “2026년 상반기 내 출시 예정”으로만 명시됐습니다. 구체적 날짜는 2026년 3월 19일 현재 공개되지 않았습니다. (출처: NVIDIA 공식 보도자료, 2026.03.11) 확인 필요: 출시 일정은 변경 가능하며 공식 채널에서 직접 확인하는 것을 권장합니다.

한국 서비스에서 쓰기 위해 따로 설정이 필요한가요?

현재 출시된 Nemotron 3 Super는 한국어 성능에 대한 공식 벤치마크를 별도로 공개하지 않았습니다. 학습 데이터 상당 부분이 영어 및 코딩 데이터 기반임을 감안하면, 한국어 전용 업무에는 추가 파인튜닝이 필요할 가능성이 있습니다. 확인 필요: 한국어 특화 성능 검증은 직접 테스트를 통해 확인하는 것을 권장합니다.

▲ 목차로 돌아가기

마치며

Nemotron 3 Super는 “범용 AI 최강 모델”이 아닙니다. 명확한 설계 목적이 있고, 그 목적에 맞는 환경에서는 실제로 측정 가능한 우위가 있습니다. 멀티 에이전트 오케스트레이션, 장기 컨텍스트 유지, 비용 최적화가 필요한 엔터프라이즈 배포 — 이 세 조건이 겹치는 곳에서는 지금 나와 있는 동급 오픈 모델 중 가장 현실적인 선택지 중 하나입니다.

그런데 막상 써보면 다른 측면도 나옵니다. 세밀한 지시 추종, 구조화 출력 정확도, 특정 agentic 명령에서는 Qwen3.5 122B가 현재 기준으로 앞선다는 실제 사용자 데이터가 있습니다. 이 부분은 모델을 선택하기 전에 반드시 자신의 실제 태스크로 직접 검증해야 합니다.

NVIDIA가 이 모델을 통해 하드웨어 판매를 넘어 소프트웨어·인프라 생태계 전체를 장악하려는 방향으로 움직이고 있다는 건 부정하기 어렵습니다. 그 전략이 나쁜 건 아닙니다. 다만, “오픈”이라는 표현이 어느 범위까지를 의미하는지는 직접 확인해두는 게 낫습니다. 모델은 열려 있어도, 최대 효율의 문은 특정 하드웨어로만 열립니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. NVIDIA Developer Blog — Introducing Nemotron 3 Super (2026.03.11) developer.nvidia.com
  2. NVIDIA 공식 보도자료 — Nemotron 3 Family Announcement (2026.03.11) nvidianews.nvidia.com
  3. Artificial Analysis — Nemotron 3 Super: The new leader in open, efficient intelligence (2026.03.11) artificialanalysis.ai
  4. Greptile 공식 블로그 — Hands-On Evaluation of NVIDIA Nemotron 3 Super (2026.03.11) greptile.com
  5. Igor’s Lab — NVIDIA Nemotron 3 Super: When “open source” smells like platform strategy (2026.03.12) igorslab.de
  6. Reddit LocalLLaMA — Nemotron 3 실사용 비교 (2026.03.17) reddit.com/r/LocalLLaMA

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 2026년 3월 19일 기준이며, 이후 업데이트에 따라 달라질 수 있습니다. 공식 채널에서 최신 정보를 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기