NVIDIA 베라 루빈, 공식 수치 5가지 직접 확인했습니다

magister

Published on

2026년 3월 17일

IT/AI

2026.03.17 기준
GTC 2026 키노트 당일 발표
NVIDIA 베라 루빈 공식 수치 기준

NVIDIA 베라 루빈, 공식 수치 5가지 직접 확인했습니다

한국시간 오늘 새벽 3시, 젠슨 황의 GTC 2026 키노트가 끝났습니다. NVIDIA 베라 루빈(Vera Rubin)의 공식 스펙이 확정됐는데, 발표된 숫자 그대로만 보면 놓치는 게 있습니다.

50 PFLOPS

NVFP4 추론 성능 (Rubin GPU)

10배

블랙웰 대비 토큰 비용 절감

260 TB/s

NVL72 랙 내부 대역폭

$1조

2027년까지 예상 수익 (젠슨 황 발표)

6개 칩을 동시에 바꿨다는 게 왜 대단한 건가요?

NVIDIA는 보통 “한 번에 칩 하나만 바꾼다”는 원칙을 지켜왔습니다. GPU 세대 교체 때 CPU나 네트워킹 칩까지 동시에 뜯어고치는 건 엔지니어링 리스크가 너무 크기 때문입니다. 그런데 베라 루빈은 달랐습니다. 베라 CPU, 루빈 GPU, NVLink 6 스위치, ConnectX-9 SuperNIC, BlueField-4 DPU, Spectrum-6 이더넷 스위치, 6개를 동시에 새로 설계했습니다.

젠슨 황은 GTC 2026 키노트에서 이를 “익스트림 코디자인(extreme codesign)”이라고 불렀습니다. 각 칩이 서로의 성능에 맞춰 설계됐다는 뜻으로, 개별 부품 벤치마크보다 시스템 전체 성능이 더 중요해집니다. (출처: NVIDIA GTC 2026 공식 블로그, 2026.03.16)

실제 양산 일정도 확정됐습니다. 2026년 하반기부터 AWS, 마이크로소프트 애저, 구글 클라우드, 오라클 클라우드에서 Vera Rubin 기반 인스턴스를 제공할 예정입니다. 마이크로소프트의 차세대 Fairwater AI 슈퍼팩토리는 Vera Rubin NVL72 랙 시스템을 수십만 개 단위로 도입합니다. (출처: NVIDIA 공식 프레스킷, nvidianews.nvidia.com, 2026.01.05)

💡 공식 발표문과 실제 조립 공정 데이터를 같이 놓고 보니 이런 차이가 보였습니다. 블랙웰 컴퓨트 트레이 조립에 약 2시간이 걸렸던 반면, 베라 루빈은 케이블 없는 모듈형 트레이 구조로 5분으로 줄었습니다. 성능 수치보다 데이터센터 운영 비용에 더 직접적인 영향을 줄 수 있는 변화입니다. (출처: NVIDIA GTC 2026 키노트, Forbes Cambrian-AI 분석, 2026.01.07)

▲ 목차로 돌아가기

루빈 GPU, 숫자로만 보면 놓치는 게 있습니다

NVIDIA가 발표한 루빈 GPU의 공식 수치는 NVFP4 기준 추론 50 PFLOPS입니다. 블랙웰 대비 5배입니다. 그런데 이 숫자를 다른 회사 제품과 직접 비교할 때 조심해야 하는 이유가 있습니다.

항목	블랙웰 (B200)	루빈 GPU (R100)	AMD MI450
추론 성능	10 PFLOPS (NVFP4)	50 PFLOPS (NVFP4)	확인 필요 (출시 전)
HBM 용량	192 GB (HBM3e)	288 GB (HBM4)	432 GB (HBM4) ★
메모리 대역폭	8 TB/s	22 TB/s	19.6 TB/s
트랜지스터 수	208억	336억	확인 필요
출하 시기	2025 (현재 출하 중)	2026 하반기	2026 하반기

★ AMD MI450 수치 출처: HotHardware, AMD Instinct MI450 발표 자료 (2026.01) | NVIDIA 수치 출처: NVIDIA 개발자 블로그 (developer.nvidia.com, 2026.01.05)

💡 “5배 성능”과 “10배 낮은 토큰 비용”은 NVFP4 포맷 기준입니다. NVFP4는 하드웨어 피크 값으로, 실제 모델이 모든 레이어를 FP4로 실행하진 않습니다. 학습 시엔 옵티마이저 상태가 BF16/FP32로 유지됩니다. 즉, NVIDIA 수치를 4로 나눠서 BF16 성능이라고 보는 건 정확하지 않습니다. (출처: Forbes Cambrian-AI Research 분석, 2026.01.07) 공식 MLPerf 벤치마크 결과는 출하 이후 확인이 필요합니다.

▲ 목차로 돌아가기

NVL72 랙의 260TB/s, 인터넷 전체 대역폭보다 크다고요?

베라 루빈 NVL72 랙은 72개의 루빈 GPU를 NVLink 6로 연결합니다. GPU 1개당 3.6TB/s 대역폭, 랙 전체로는 260TB/s입니다. 젠슨 황은 키노트에서 이 수치가 “인터넷 전체 대역폭보다 크다”고 직접 표현했습니다. (출처: NVIDIA GTC 2026 공식 블로그, blogs.nvidia.com, 2026.03.16)

이게 의미하는 건 하나의 랙이 모든 GPU 간 통신을 단일 홉(single hop)으로 처리한다는 뜻입니다. MoE(혼합 전문가) 모델에서 토큰이 어느 전문가(GPU)로 이동하든 추가 지연이 없습니다. 실제로 NVIDIA 개발자 블로그 기준, MoE 추론에서 all-to-all 연산 처리량이 블랙웰 대비 2배 향상됐습니다. (출처: developer.nvidia.com, 2026.01.05)

NVLink 6에는 SHARP(확장 계층적 집계·환원 프로토콜) 인네트워크 컴퓨팅도 내장됐습니다. 스위치 내부에서 all-reduce 연산의 일부를 처리해 GPU 동기화 오버헤드를 줄입니다. NVIDIA 공식 문서에 따르면 통신 트래픽을 최대 50% 줄이고, 텐서 병렬 실행 시간을 최대 20% 개선할 수 있습니다. (출처: developer.nvidia.com, 2026.01.05) 숫자가 크게 느껴지는 이유는 여기서 나옵니다.

▲ 목차로 돌아가기

베라 CPU, 왜 따로 만들었을까요?

많은 분들이 “GPU만 좋으면 되지, CPU는 왜?” 하고 생각할 수 있습니다. 그런데 AI 팩토리가 커질수록 GPU보다 CPU가 병목이 됩니다. 수천 개의 GPU에 데이터를 공급하고, 토큰 흐름을 스케줄링하고, 여러 에이전트의 컨텍스트를 관리하는 건 CPU의 일입니다.

베라 CPU는 NVIDIA가 직접 설계한 올림푸스(Olympus) 코어 88개로 구성됩니다. 이전 세대 그레이스(Grace) CPU와 비교하면 메모리 대역폭이 512GB/s에서 1.2TB/s로 2.4배 늘고, 메모리 용량은 480GB에서 1.5TB로 3배 늘었습니다. NVLink-C2C 대역폭도 900GB/s에서 1.8TB/s로 두 배가 됩니다. (출처: NVIDIA developer.nvidia.com, 2026.01.05)

중요한 건 베라 CPU가 루빈 GPU와 NVLink-C2C를 통해 통일된 메모리 주소 공간을 공유한다는 점입니다. CPU의 LPDDR5X 1.5TB와 GPU의 HBM4 288GB를 마치 하나의 풀처럼 씁니다. KV 캐시를 GPU 메모리 바깥으로 오프로드할 수 있어서 긴 컨텍스트 처리가 실질적으로 달라집니다. 이 부분은 단순 스펙 비교만으론 드러나지 않는 설계 철학입니다.

▲ 목차로 돌아가기

AMD MI450과 나란히 놓으면 달라지는 것들

베라 루빈이 압도적으로 좋다고만 보기는 어렵습니다. 솔직히 말하면 AMD MI450이 메모리 용량에서 확실한 우위를 가져갑니다. GPU 1개당 HBM4 432GB로, 베라 루빈의 288GB보다 1.5배 많습니다. (출처: HotHardware, AMD MI450 사양 발표, 2026.01) 이게 중요한 이유는, 긴 컨텍스트 추론이나 초대형 모델을 단일 GPU에서 돌릴 때 메모리 용량이 직접적인 제한이 되기 때문입니다.

💡 GPU 성능 비교 기사들이 대개 생략하는 맥락이 있습니다. NVIDIA의 50 PFLOPS(NVFP4)와 AMD MI450의 추론 수치는 정밀도 기준이 다를 수 있어 직접 비교가 어렵습니다. Forbes의 Cambrian-AI Research 분석에 따르면, “공정한 MLPerf 벤치마크 결과가 나오기 전까지는 단순 수치 비교는 무의미하다”고 명시하고 있습니다. (출처: Forbes, Karl Freund, 2026.01.07) 실제 성능은 2026년 하반기 출하 후 검증이 필요합니다.

다만 소프트웨어 생태계는 아직 NVIDIA가 압도적입니다. CUDA는 20주년을 맞았고, ROCm(AMD의 CUDA 대응 스택)은 여전히 일부 모델·프레임워크에서 호환 이슈가 있습니다. 기업 입장에서 소프트웨어 마이그레이션 비용을 고려하면 단순 하드웨어 스펙만으로 결정이 나지는 않습니다. 이 부분에서 AMD가 실질적으로 점유율을 뺏어오기가 쉽지 않다는 평가가 많습니다.

▲ 목차로 돌아가기

Groq 3 LPU가 들어간 이유가 따로 있었습니다

GTC 2026에서 놀랐던 발표 중 하나가 Groq 3 LPU(언어 처리 유닛)의 통합이었습니다. NVIDIA는 작년 12월 Groq을 170억 달러에 인수했고, 그 첫 번째 제품이 이번에 나왔습니다. LPU 256개를 담은 Groq LPX 랙은 Vera Rubin 랙 옆에 붙어서 씁니다. (출처: Reuters, 2026.03.16)

이걸 보면 NVIDIA가 추론(inference)을 두 단계로 나눴다는 게 보입니다. “프리필(prefill)”은 사용자 입력을 AI가 이해하는 토큰으로 변환하는 단계로 Vera Rubin GPU가 처리하고, “디코드(decode)”는 실제 답변을 생성하는 단계로 Groq 3 LPU가 처리합니다. 젠슨 황에 따르면 Groq 3 LPU는 루빈 GPU 대비 토큰당 와트 효율이 최대 35배입니다. (출처: TechRepublic GTC 2026 라이브 블로그, 2026.03.16)

이게 왜 중요한가 하면, “베라 루빈 = GPU 하나로 다 해결”이라는 기존 상식이 맞지 않다는 뜻입니다. NVIDIA 자신이 추론을 이분해서, 연산이 집중되는 프리필은 루빈 GPU로, 메모리 대역폭이 집중되는 디코드는 전용 LPU로 넘기는 구조를 공식 채택했습니다. 이 구조는 기존 단일 GPU 추론 방식과는 인프라 설계 자체가 달라집니다.

▲ 목차로 돌아가기

자주 묻는 것들

NVIDIA 베라 루빈은 언제 살 수 있나요?

2026년 하반기부터 AWS, 마이크로소프트 애저, 구글 클라우드, 오라클 클라우드에서 인스턴스 형태로 제공될 예정입니다. 델, HPE, 레노버, 슈퍼마이크로를 통해 직접 서버 구매도 가능해집니다. 현재 전 세계 풀프로덕션 상태입니다. (출처: NVIDIA 공식 프레스킷, 2026.01.05)

블랙웰을 방금 도입했는데 루빈으로 바꿔야 하나요?

블랙웰은 현재 주력 출하 중이고, 루빈 출하는 2026년 하반기입니다. CUDA 소프트웨어 호환성은 유지됩니다. 블랙웰로 구축한 워크로드는 루빈에서 재개발 없이 전환 가능합니다. 급하게 전환할 필요는 없으며, 에이전트 AI나 초장문 컨텍스트 워크로드가 주요 과제라면 루빈이 더 유리할 수 있습니다.

파인만(Feynman) 아키텍처는 언제 나오나요?

젠슨 황은 GTC 2026에서 파인만 플랫폼을 예고했지만 구체적인 스펙과 일정은 공개하지 않았습니다. 로사(Rosa) CPU, LP40 LPU, BlueField-5, ConnectX-10 등 칩 이름만 언급됐습니다. Reuters 보도 기준 2028년 출시가 예상됩니다. (출처: Reuters, 2026.03.16) 현재로선 확정된 수치 없음, 확인 필요합니다.

일반 소비자(게이머)와는 무관한 이야기인가요?

베라 루빈은 데이터센터용입니다. 다만 GTC 2026 키노트에서 젠슨 황은 DLSS 5도 함께 발표했는데, 이건 GeForce 기반입니다. 게임·크리에이터용 GPU는 루빈과 별개 라인업으로 유지됩니다. 키노트 초반부에서 “NVIDIA는 GeForce가 만든 회사”라고 강조한 이유가 여기 있습니다. (출처: NVIDIA GTC 2026 공식 블로그, 2026.03.16)

OpenClaw, NemoClaw가 갑자기 왜 중요해졌나요?

OpenClaw는 개발자 Peter Steinberger가 만든 오픈소스 에이전트 런타임으로, 젠슨 황이 “인류 역사상 가장 빠르게 성장한 오픈소스 프로젝트”라고 표현했습니다. NVIDIA는 여기에 NemoClaw(보안·거버넌스 레이어)를 얹어 기업용으로 만들었습니다. 단일 명령어로 자율 에이전트를 설치·실행할 수 있는 게 핵심으로, 베라 루빈 인프라 전체의 소프트웨어 접착제 역할입니다. (출처: NVIDIA GTC 2026 공식 블로그, 2026.03.16)

▲ 목차로 돌아가기

마치며

베라 루빈을 정리하면 이렇습니다. 단순히 “GPU 5배 빨라짐”이 아닙니다. 6개 칩을 동시에 바꿔 시스템 자체를 새로 설계했고, 추론을 프리필과 디코드로 이분해서 각각에 최적화된 하드웨어를 붙이는 구조적 전환이 이번 발표의 핵심입니다.

주의할 것은 50 PFLOPS라는 수치입니다. NVFP4 기준의 피크 수치라 AMD MI450 등 다른 칩과 정밀도 기준 없이 비교하면 오해가 생깁니다. 공식 MLPerf 결과는 출하 이후에야 확인됩니다. AMD MI450이 메모리 용량(432GB)에서 더 높다는 점도 놓치면 안 됩니다.

2026년 하반기 실제 출하와 MLPerf 벤치마크가 나올 때 다시 한번 확인이 필요합니다. 발표 수치와 실측 수치 사이의 간극은 항상 있어왔습니다. 그때 가서 비교하는 게 맞습니다.

본 포스팅 참고 자료

NVIDIA GTC 2026 공식 라이브 블로그 — blogs.nvidia.com/blog/gtc-2026-news/
NVIDIA 베라 루빈 플랫폼 공식 프레스킷 (CES 2026 발표) — nvidianews.nvidia.com
Inside the NVIDIA Vera Rubin Platform — 기술 딥다이브 — developer.nvidia.com
Reuters: Nvidia bets on AI inference as chip revenue opportunity hits $1 trillion — reuters.com
Forbes Cambrian-AI Research: Nvidia Leapfrogs Google And AMD With Vera Rubin — forbes.com
AMD Instinct MI450 스펙 — hothardware.com

※ 본 포스팅은 2026년 03월 17일 NVIDIA GTC 2026 키노트 발표 및 공식 자료를 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·스펙이 변경될 수 있습니다. 본문 내 모든 성능 수치는 출처를 명시했으며, 출하 전 발표 수치이므로 실측치와 차이가 있을 수 있습니다. 투자 결정의 참고 자료로 사용하지 마십시오.

AI반도체, 엔비디아GTC2026, 젠슨황키노트, NVIDIA베라루빈, RubinGPU

NVIDIA 베라 루빈, 공식 수치 5가지 직접 확인했습니다

NVIDIA 베라 루빈, 공식 수치 5가지 직접 확인했습니다

6개 칩을 동시에 바꿨다는 게 왜 대단한 건가요?

루빈 GPU, 숫자로만 보면 놓치는 게 있습니다

NVL72 랙의 260TB/s, 인터넷 전체 대역폭보다 크다고요?

베라 CPU, 왜 따로 만들었을까요?

AMD MI450과 나란히 놓으면 달라지는 것들

Groq 3 LPU가 들어간 이유가 따로 있었습니다

자주 묻는 것들

마치며

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

NVIDIA 베라 루빈, 공식 수치 5가지 직접 확인했습니다

NVIDIA 베라 루빈, 공식 수치 5가지 직접 확인했습니다

6개 칩을 동시에 바꿨다는 게 왜 대단한 건가요?

루빈 GPU, 숫자로만 보면 놓치는 게 있습니다

NVL72 랙의 260TB/s, 인터넷 전체 대역폭보다 크다고요?

베라 CPU, 왜 따로 만들었을까요?

AMD MI450과 나란히 놓으면 달라지는 것들

Groq 3 LPU가 들어간 이유가 따로 있었습니다

자주 묻는 것들

마치며

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기