네모트론 3 슈퍼, 7.5배 빠르다는 수치 직접 확인했습니다

Published on

in

네모트론 3 슈퍼, 7.5배 빠르다는 수치 직접 확인했습니다

2026.03.11 출시 기준
Nemotron 3 Super 120B-A12B
IT/AI

네모트론 3 슈퍼, 7.5배 빠르다는 수치 직접 확인했습니다

NVIDIA가 3월 11일 공개한 네모트론 3 슈퍼(Nemotron 3 Super)는 총 1,200억 개 파라미터짜리 모델입니다. 그런데 실제 추론 시 활성화되는 파라미터는 120억 개뿐이에요. 이 구조 덕분에 같은 급 경쟁 모델들보다 최대 7.5배 빠르다는 수치가 공식 기술 보고서에 있습니다. 근데 이게 전부 좋은 얘기는 아닙니다. 벤치마크 정확도에서는 경쟁 모델에 밀리는 부분도 있고, 극단적인 출력 장황함이 속도 이점을 상쇄할 수 있다는 지적도 나옵니다. 지금부터 수치 하나씩 뜯어보겠습니다.

7.5x
Qwen3.5 대비 처리량
1M
토큰 컨텍스트 윈도우
12B
실제 활성 파라미터
85.6%
PinchBench 최고 점수

120B짜리인데 왜 12B처럼 달릴까요?

MoE 구조가 핵심입니다

네모트론 3 슈퍼의 총 파라미터는 1,200억 개입니다. 그런데 추론을 실행할 때 실제로 활성화되는 파라미터는 120억 개뿐이에요. 이게 MoE(Mixture of Experts) 구조의 핵심입니다. 모든 파라미터가 항상 켜져 있는 게 아니라, 입력 토큰마다 필요한 전문가 집합만 선택적으로 활성화됩니다.

솔직히 말하면, 이 구조 자체는 새로운 게 아닙니다. Mixtral이나 Qwen3.5도 MoE 기반이에요. 그런데 네모트론 3 슈퍼는 여기에 LatentMoE라는 신규 기법을 추가했습니다. 토큰을 전문가에 보내기 전에 4,096 차원에서 1,024 차원으로 먼저 압축합니다. 그러면 4분의 1 크기의 공간에서 전문가 계산을 마치고 다시 확장하는 방식이 됩니다.

💡 공식 기술 보고서와 실제 서빙 수치를 같이 놓고 보니 이런 차이가 보였습니다

LatentMoE 덕분에 전문가를 128개 + top-6 라우팅에서 512개 + top-22 라우팅으로 확장할 수 있었습니다. 같은 연산 비용으로 4배 많은 전문가가 협력하는 구조가 됩니다. (출처: NVIDIA Nemotron 3 Super Technical Report, 2026.03.10)

예를 들어 Python 코드와 SQL 쿼리가 동시에 담긴 입력이 들어오면, 각각의 전문가가 별도로 활성화됩니다. 일반적인 dense 모델이라면 하나의 거대한 두뇌가 전부를 처리하지만, 이 모델은 필요한 전문가만 소환하는 방식이라 속도가 유지됩니다. H100 GPU 한 대에서 구동 가능한 이유가 여기에 있습니다.

▲ 목차로 돌아가기

7.5배 빠르다는 수치, 조건이 있습니다

측정 조건을 보면 달라집니다

NVIDIA 공식 연구 페이지(2026.03.10)에 명시된 수치는 이렇습니다. “8K 토큰 입력, 16K 토큰 출력 조건에서 Qwen3.5-122B 대비 7.5배, GPT-OSS-120B 대비 2.2배 높은 처리량.” 이 조건이 핵심입니다. 짧은 입력과 중간 길이의 출력 조건에서 나온 수치에요.

그런데 독립 평가 기관인 Artificial Analysis가 실제 서비스 환경에서 측정한 수치도 공개했습니다. 초당 약 478 토큰, 첫 토큰까지의 시간은 0.56초입니다. 처리량 자체는 인상적이에요. 문제는 같은 평가에서 “극단적으로 장황하다(insanely verbose)”는 지적도 함께 나왔습니다.

⚠️ 직접 계산해볼 수 있는 수치입니다

Artificial Analysis 평가 스위트 실행 시 생성 토큰 수:

  • 네모트론 3 슈퍼: 약 1억 1,000만 토큰
  • GPT-OSS-120B (고노력 모드): 약 7,700만 토큰
  • Qwen3.5-122B (추론 모드): 약 9,100만 토큰

네모트론 3 슈퍼는 Qwen3.5보다 1.2배 더 많은 토큰을 뱉어냅니다. 초당 처리 속도가 빠르더라도 총 생성량이 많으면 실제 사용자가 기다리는 시간은 비슷해질 수 있습니다. (출처: Artificial Analysis, Maxime Labonne 분석 글, 2026.03.11)

속도 이점이 실제로 효과를 내려면 출력 길이가 짧아야 합니다. 짧고 구체적인 답변을 요구하는 코드 리뷰, 문서 요약, 도구 호출 같은 작업에서는 이 속도가 살아납니다. 반면 긴 추론 과정이 필요한 수학 풀이나 리포트 작성이라면 장황함이 속도 이점을 상쇄할 가능성이 있습니다.

▲ 목차로 돌아가기

1M 토큰 컨텍스트, 진짜로 유지될까요?

Mamba가 이걸 가능하게 만듭니다

100만 토큰 컨텍스트 윈도우는 A4 기준 약 2,000페이지 분량의 문서를 한 번에 처리하는 규모입니다. 일반 트랜스포머 구조라면 이 길이에서 메모리 사용량이 제곱으로 늘어나기 때문에 사실상 불가능합니다. 네모트론 3 슈퍼가 이걸 실용적으로 구현할 수 있는 이유는 아키텍처의 88개 레이어 중 대부분이 Mamba-2 기반으로 구성됐기 때문입니다.

Mamba 계층은 상태 공간 모델(SSM)을 기반으로 합니다. 시퀀스 길이에 대해 선형 복잡도를 가져서 1M 토큰에서도 메모리 사용량이 폭발하지 않습니다. 다만 SSM 단독으로는 특정 정보를 긴 맥락 안에서 정확히 “찾아내는” 작업(연상 기억)에서 약점이 있습니다. 그래서 핵심 레이어 위치에 트랜스포머 어텐션 레이어를 끼워 넣어 보완합니다.

NVIDIA 기술 보고서에서는 RULER 벤치마크 1M 토큰 조건에서 GPT-OSS-120B와 Qwen3.5-122B를 모두 앞선다고 밝히고 있습니다. (출처: NVIDIA Nemotron 3 Super Technical Report, 2026.03.10) 이 수치는 긴 법률 문서, 전체 코드베이스, 긴 대화 기록을 단일 컨텍스트에서 처리하는 에이전트 워크플로에서 실질적인 차이를 만듭니다.

▲ 목차로 돌아가기

정확도에서 1등이 아닌 이유

공식 발표문과 실제 평가 수치가 다를 때 이렇게 됩니다

NVIDIA 공식 블로그에는 “GPT-OSS-120B, Qwen3.5-122B 대비 동등하거나 높은 정확도”라고 적혀 있습니다. 그런데 독립 분석가인 Maxime Labonne의 상세 분석(2026.03.11)에는 이런 문장이 있습니다. “Qwen3.5-122B가 지식 집약적 벤치마크와 에이전트 벤치마크 전반에서 raw accuracy를 앞선다. GPT-OSS-120B는 일부 수학·코딩 과제에서 우위를 보인다.”

네모트론 3 슈퍼가 1등인 영역은 HMMT Feb25 수학 대회 문제와 긴 문서 검색(long-context retrieval)입니다. PinchBench에서는 85.6%로 오픈 모델 중 1위를 기록했습니다. 근데 PinchBench는 OpenClaw 에이전트 프레임워크 내에서의 성능을 측정하는 특수 벤치마크입니다. 일반적인 지식 QA나 코딩 정확도 벤치마크에서의 1위가 아닙니다.

💡 벤치마크 항목별로 선두 모델이 다릅니다 — 모델 선택 기준을 바꿔야 하는 이유입니다

평가 항목 네모트론 3 슈퍼 GPT-OSS-120B Qwen3.5-122B
처리량 (8K/16K) 🥇 1위 2위 3위
RULER 1M 컨텍스트 🥇 1위 2위 3위
지식 집약적 QA 경쟁 경쟁 🥇 앞서는 경우 多
PinchBench (에이전트) 🥇 85.6% 확인 필요 확인 필요
출력 장황함 110M 토큰 77M 토큰 91M 토큰

출처: NVIDIA Research (2026.03.10), Artificial Analysis 독립 평가, Maxime Labonne 분석(2026.03.11)

이 테이블이 말하는 건 간단합니다. 네모트론 3 슈퍼는 “가장 정확한 모델”이 아니라 “에이전트 파이프라인에서 가장 효율적인 모델”로 설계됐다는 것이에요. 이 차이를 모르고 단순히 “NVIDIA 새 모델 = 최고 성능”으로 이해하면 실제 사용에서 기대와 어긋납니다.

▲ 목차로 돌아가기

실제로 쓰려면 이 구조를 알아야 합니다

슈퍼 혼자 쓰는 모델이 아닙니다

NVIDIA가 공식 개발자 블로그(2026.03.11)에서 직접 제시한 배포 패턴이 있습니다. “Super + Nano” 조합입니다. 간단한 작업은 네모트론 3 나노(약 30B급)가 처리하고, 복잡한 다단계 추론이나 대용량 코드베이스 분석은 슈퍼가 맡는 구조입니다. 예를 들어 소프트웨어 개발 에이전트라면 단순 PR 리뷰는 나노가, 코드베이스 전체를 이해해야 하는 버그 수정은 슈퍼가 처리하는 방식입니다.

💡 훈련 방식의 특이한 점을 공식 기술 보고서에서 직접 확인했습니다

멀티에이전트 시스템은 표준 채팅 대화보다 최대 15배 많은 토큰을 생성합니다. 매 단계마다 도구 출력과 추론 기록 전체를 다시 전송하기 때문입니다. 네모트론 3 슈퍼는 이 “컨텍스트 폭발” 문제를 해결하기 위해 1M 토큰 네이티브 컨텍스트 + 목표 정렬 강화 학습(21개 환경, 120만 롤아웃)으로 훈련됐습니다. (출처: Anthropic 멀티에이전트 연구 보고서, NVIDIA Nemotron 3 Super Tech Report 2026.03.10)

강화 학습 단계도 인상적입니다. GRPO 방식으로 수학, 코드, STEM, 도구 호출, 안전 등 21개 환경에서 훈련됐고, 마지막에는 GitHub 이슈를 자율적으로 해결하는 SWE 에이전트 특화 단계도 별도로 진행됐습니다. OpenHands를 에이전트 하네스로 사용해서 Claude Code, Codex 등이 기대하는 도구 형식과 호환됩니다. (출처: NVIDIA Developer Blog, 2026.03.11)

학습 안정화 과정에서도 흥미로운 지점이 있습니다. WSD(Warmup-Stable-Decay) 학습률 스케줄의 안정 단계에서 체크포인트 품질 평가를 위해 별도의 decay 실행이 필요했는데, 대신 오프라인 체크포인트 병합 기법을 써서 약 4조 토큰 분량의 연산 비용을 아꼈다고 기술 보고서에 명시되어 있습니다. 이 결과로 12개 벤치마크 평균에서 원본 체크포인트보다 2~4점 높은 점수를 기록했습니다.

▲ 목차로 돌아가기

지금 무료로 쓰는 방법

접근 경로가 여러 개입니다

네모트론 3 슈퍼는 현재 허깅페이스에 오픈 웨이트로 공개돼 있습니다. BF16, FP8, NVFP4 세 가지 정밀도 버전이 모두 올라가 있어서 보유한 GPU 메모리에 따라 선택할 수 있습니다. FP8 버전은 H100 단일 GPU로도 구동 가능한 수준입니다. NVIDIA 오픈 모델 라이선스는 상업적 사용을 허용합니다.

직접 GPU를 돌릴 여건이 안 된다면 세 가지 무료·저비용 경로가 있습니다. build.nvidia.com은 별도 설치 없이 API 형태로 바로 테스트 가능하고, OpenRouter는 무료 티어에서 nvidia/nemotron-3-super-120b-a12b 모델로 접근됩니다. Perplexity Pro 구독자는 Computer 기능에서 20개 오케스트레이션 모델 중 하나로 선택해 쓸 수 있습니다.

클라우드 인프라에 올리려면 Google Cloud Vertex AI, Oracle Cloud Infrastructure는 지금 바로 사용 가능하고, Amazon Bedrock과 Microsoft Azure는 곧 추가 예정입니다. Dell Enterprise Hub에서는 온프레미스 배포용으로도 최적화된 버전을 제공합니다. (출처: NVIDIA 공식 블로그, 2026.03.11)

▲ 목차로 돌아가기

Q&A — 자주 나오는 질문 5가지

▶ 로컬에서 구동하려면 GPU가 얼마나 필요한가요?
FP8 버전 기준으로 H100 80GB 단일 카드에서 구동 가능합니다. NVFP4 버전을 쓰면 메모리 요구량이 더 줄어들어 NVIDIA Blackwell 플랫폼(B200 등)에서는 FP8 H100 대비 4배 빠른 추론이 가능합니다. 소비자용 GPU 환경에서의 성능은 확인 필요 상태입니다.
▶ 1M 토큰 컨텍스트는 한국어에서도 동일하게 동작하나요?
공식 발표에서는 다국어 처리 능력을 명시했으나 한국어 롱컨텍스트 성능에 대한 별도 벤치마크는 공개되지 않았습니다. RULER 벤치마크 1M 조건은 영어 기준 측정값입니다. 한국어 문서 처리 성능은 별도 검증이 필요합니다.
▶ 파인튜닝이 가능한가요?
가능합니다. NVIDIA가 LoRA SFT와 GRPO/DAPO 방식의 파인튜닝 쿡북을 GitHub에 공개했습니다. NeMo Megatron-Bridge와 NeMo Automodel 두 가지 경로를 지원합니다. Unsloth를 통한 파인튜닝도 공식 지원됩니다. (출처: NVIDIA NeMo GitHub, 2026.03.11)
▶ 이미지나 영상 처리는 가능한가요?
아닙니다. 네모트론 3 슈퍼는 텍스트 전용 모델입니다. 멀티모달 작업(이미지, 영상 이해)이 필요하다면 Qwen3.5-122B가 비전 기능을 지원한다는 점에서 더 적합한 선택입니다. (출처: Maxime Labonne 분석, 2026.03.11)
▶ 네모트론 3 울트라는 언제 나오나요?
약 5,000억 파라미터급으로 예상되는 네모트론 3 울트라는 현재 출시 일정이 공식 확인되지 않았습니다. Maxime Labonne 분석에서는 LatentMoE 스케일링 특성과 NVFP4 훈련 레시피가 적용된다면 프런티어 중국 MoE 모델과 직접 경쟁할 수 있는 모델이 될 것으로 보고 있습니다.

▲ 목차로 돌아가기

마치며

네모트론 3 슈퍼를 한 줄로 정리하면 이렇습니다. “가장 정확한 모델이 아니라, 에이전트 파이프라인에서 가장 효율적으로 돌아가도록 설계된 모델.” 7.5배 처리량은 8K 입력, 16K 출력이라는 조건에서의 수치이고, 극단적인 출력 장황함이 실사용에서 이 이점을 줄일 수 있습니다.

그럼에도 이 모델이 중요한 이유는 두 가지입니다. 첫째, 120B짜리를 H100 단 한 장으로 굴릴 수 있게 된다는 건 에이전트 시스템의 인프라 비용 구조를 바꿀 수 있는 수준입니다. 둘째, 가중치·데이터셋·훈련 레시피를 전부 공개했기 때문에 이 구조 위에서 자체 도메인 특화 모델을 만드는 게 이제 현실적인 선택지가 됩니다.

결론부터 말씀드리면, 범용 챗봇 용도라면 Qwen3.5-122B가 현재 더 나은 선택일 수 있습니다. 그런데 멀티에이전트 파이프라인을 구축하거나, 전체 코드베이스를 컨텍스트에 올려서 작업하는 목적이라면 네모트론 3 슈퍼가 오픈 모델 중 지금 시점에서 가장 현실적인 선택입니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

  1. NVIDIA 공식 블로그 — Nemotron 3 Super 출시 발표 (2026.03.11)
    https://blogs.nvidia.com/blog/nemotron-3-super-agentic-ai/
  2. NVIDIA Developer Blog — Nemotron 3 Super 아키텍처 상세 (2026.03.11)
    https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/
  3. NVIDIA Research — Nemotron 3 Super 공식 연구 페이지 및 기술 보고서 (2026.03.10)
    https://research.nvidia.com/labs/nemotron/Nemotron-3-Super/
  4. Maxime Labonne — “Nemotron 3 Super: NVIDIA’s gpt-oss killer?” 독립 분석 (2026.03.11)
    https://maximelabonne.substack.com/p/nemotron-3-super-nvidias-gpt-oss
  5. Anthropic — 멀티에이전트 시스템 토큰 증가 연구 보고서
    https://www.anthropic.com/engineering/multi-agent-research-system

⚠️ 본 포스팅은 2026년 3월 19일 기준 공개된 공식 자료와 독립 분석을 바탕으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가용 플랫폼이 변경될 수 있습니다. 벤치마크 수치는 측정 환경·하드웨어·소프트웨어 버전에 따라 달라질 수 있으며, 실제 운영 환경 성능은 별도 검증이 필요합니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기