Groq 3 LPX, GPU 대체 아닌 이유 수치로 확인했습니다

Published on

in

Groq 3 LPX, GPU 대체 아닌 이유 수치로 확인했습니다
2026.03.22 기준 / GTC 2026 공식 발표 기준

Groq 3 LPX, GPU 대체 아닌 이유
수치로 확인했습니다

“LPU가 GPU를 대체한다”는 말이 GTC 2026 이후 다시 돌고 있습니다. 직접 공식 자료를 열어봤더니, 그 말이 성립하려면 전제 조건이 하나 있었습니다.

35×
Blackwell 대비 추론 처리량(MW당)
150 TB/s
LPX 온칩 SRAM 대역폭
$20B
NVIDIA-Groq 라이선스 계약 규모
2H 2026
출시 예정 시기

GTC 2026에서 뭐가 발표됐나

2026년 3월 16일부터 19일, 캘리포니아 산호세 SAP 센터. NVIDIA GTC 2026은 190개국 약 3만 9천 명이 참석한 행사였고, 젠슨 황은 그 자리에서 Vera Rubin 플랫폼을 전면 공개했습니다. 1월 CES에서 맛보기로 보여줬던 것을 이번에 완전히 펼쳐놓은 겁니다.

발표 핵심은 칩 7개, 랙 5종을 하나의 AI 팩토리 시스템으로 통합한다는 것이었습니다. Rubin GPU, Vera CPU, ConnectX-9, BlueField-4, Spectrum-6까지는 이미 예고됐던 것들이지만, 이번에 처음 등장한 이름이 있었습니다. NVIDIA Groq 3 LPX — 엔비디아 최초의 비GPU 랙스케일 AI 가속기입니다.

발표 직후 “LPU가 GPU를 대체한다”는 말이 다시 돌기 시작했습니다. 하지만 공식 키노트 PDF(2026.03.16 발표자료)를 직접 열어보면, 이 칩이 어떤 조건에서 35배 성능을 내는지가 훨씬 구체적으로 나옵니다.

💡 공식 발표자료를 키노트 슬라이드와 뉴스룸 원문을 나란히 놓고 보니 이런 차이가 보였습니다

젠슨 황이 “35배”를 언급할 때의 비교 기준은 “Blackwell NVL72 단독” 대비입니다. Groq 3 LPX 단독이 아니라, Rubin GPU + LPX 조합 기준입니다. 이 전제를 빼면 수치가 완전히 달라집니다.

▲ 목차로 돌아가기

Groq 3 LPX, 그게 정확히 뭔가요

LPX는 Language Processing eXtended의 약자로, Groq의 LPU(언어 처리 장치) 256개를 하나의 랙에 집적한 추론 전용 가속기입니다. 핵심 칩은 LP30으로, 삼성 4nm 공정에서 제조됩니다(출처: Tom’s Hardware, 2026.03.17).

LP30의 스펙을 공식 키노트 슬라이드 42~45페이지에서 직접 확인하면 이렇습니다.

항목 Groq LP30 (LPX 랙 기준) Rubin GPU (NVL72 랙 기준)
온칩 메모리 128 GB SRAM (256칩 합산) 288 GB HBM4 (칩당)
메모리 대역폭 150 TB/s (칩당 SRAM) 22 TB/s (칩당 HBM4)
스케일업 대역폭 (랙) 640 TB/s 260 TB/s (NVLink 6)
AI 연산 성능 315 PFLOPS (랙 합산) 50 PFLOPs/칩 (NVFP4)
트랜지스터 98B (칩당) 336B + 2.5T (HBM4 포함)
출시 예정 2H 2026 (아직 미출시) 2H 2026 (동시 출시)

(출처: NVIDIA GTC 2026 Keynote PDF p.42~45, NVIDIA Vera Rubin 공식 뉴스룸 2026.03.16)

여기서 눈에 띄는 숫자는 SRAM 대역폭입니다. LP30 칩 하나의 SRAM 대역폭이 Rubin GPU HBM4 대역폭의 약 6.8배입니다. 토큰을 하나씩 순차 생성하는 decode 단계에서 이 차이가 그대로 속도 차이로 나타납니다.

▲ 목차로 돌아가기

“GPU 대체”가 아닌 이유 — 숫자로 확인

LLM 추론에는 두 단계가 있습니다. Prefill(프롬프트를 처리해 첫 번째 토큰을 만드는 과정)과 Decode(이후 토큰을 하나씩 생성하는 과정)입니다. NVIDIA 공식 뉴스룸(2026.03.16)에 이렇게 나와 있습니다.

“While Rubin GPUs will continue to handle prefill (prompt processing), Groq’s LPX will now handle latency-sensitive portions of decode.”

(출처: NetworkWorld, NVIDIA GTC 2026 Groq 3 LPX 취재 기사, 2026.03.17)

Groq 3 LPX는 decode만 담당합니다. Prefill은 무조건 Rubin GPU가 처리해야 합니다. LPX 단독으로는 추론 한 사이클도 완결할 수 없습니다.

⚠️ “LPX가 GPU를 대체한다”는 말이 틀린 이유

공식 구조상 LPX는 Rubin NVL72의 add-on으로 설계됐습니다. 별도 판매 계획이 공개된 바 없고, NVIDIA 공식 발표도 항상 “Vera Rubin NVL72 + Groq 3 LPX 조합” 기준으로 수치를 제시합니다. 독립 운용이 가능한지 여부는 아직 공식 답변이 없는 부분입니다.

GPU vs LPU 구도로 보는 시각 자체가 어긋났습니다. NVIDIA가 GTC 2026에서 보여준 건 GPU를 버리는 게 아니라, GPU가 못하는 영역을 LPU로 채우는 이종 칩 협력 구조입니다.

▲ 목차로 돌아가기

35배가 가능한 구체적 조건

35배라는 숫자가 성립하려면 세 가지 조건이 동시에 맞아야 합니다. NVIDIA GTC 2026 키노트 PDF p.40~41 슬라이드에서 직접 확인한 내용입니다.

조건 ①
조 단위 파라미터 모델

1조 파라미터(Trillion-parameter) 모델 기준입니다. 중소형 모델(235B 이하)에서는 이 수치가 적용되지 않습니다.

조건 ②
Ultra Premium 가격대 워크로드

키노트 슬라이드 기준 토큰당 $150 구간(Ultra GPT 등급)에서 35배가 나옵니다. $0~$6 구간에서는 2~3배 수준에 그칩니다.

조건 ③
MW당 처리량 기준

“35배”는 초당 토큰 수(TPS) 절대치가 아니라, 메가와트당 처리량 비교입니다. 전력 효율 지표입니다.

세 조건 모두 충족 시, 기가와트 단위 AI 팩토리에서 연간 수익 기회가 Blackwell 기준 $150B에서 $300B으로 2배 확장된다는 계산이 나옵니다(출처: NVIDIA GTC 2026 Keynote PDF p.41). 일반 기업 서버에 LPX 한 장 꽂아서 35배 성능이 나온다는 얘기가 아닙니다.

▲ 목차로 돌아가기

놓치기 쉬운 함정 — Rubin CPX 실종

GTC 2026 키노트를 꼼꼼히 본 사람들 사이에서 한 가지 이름이 화제가 됐습니다. Rubin CPX입니다. 2025년 9월 Vera Rubin 플랫폼 발표 때 GDDR7 기반 추론 가속기로 로드맵에 등록됐던 칩인데, GTC 2026 키노트 슬라이드 어디에도 등장하지 않았습니다.

💡 두 발표를 시간순으로 놓고 보면 이런 변화가 보입니다

2025년 9월: Rubin CPX(GDDR7 기반) 로드맵 등록 → 2026년 1월 CES: Groq IP 라이선스 계약($20B) 발표 → 2026년 3월 GTC: Groq 3 LPX 공개 + CPX 슬라이드 전면 삭제. Groq LPX가 CPX를 밀어냈다는 게 Tom’s Hardware(2026.03.17) 분석입니다. NVIDIA 측은 공식 이유를 밝히지 않았습니다.

이것이 단순한 제품 변경이 아닌 이유가 있습니다. CPX가 사용하려 했던 GDDR7은 HBM4보다 공급이 풍부하고 저렴합니다. 그 자리를 SRAM 중심의 Groq LPX가 대신 채운다는 건, HBM 수급 압박이 지속되는 상황에서 NVIDIA가 아예 다른 메모리 아키텍처로 방향을 틀었다는 신호로 읽힙니다.

기존에 CPX 소프트웨어 최적화에 투자한 기업들에게는 호환 여부가 불명확한 상황입니다. NVIDIA의 공식 입장 발표를 기다려야 하는 부분입니다.

▲ 목차로 돌아가기

Groq라는 회사는 어떻게 됐나

여기서 잠깐 배경을 짚어야 합니다. GTC에서 발표된 Groq 3 LPX는 2016년 설립된 AI 칩 스타트업 Groq Inc.의 기술을 기반으로 합니다. NVIDIA는 지난 크리스마스 이브(2025년 12월 24일)에 Groq와 $20B 규모의 IP 라이선스 계약을 체결했고, 핵심 직원 대부분을 흡수했습니다(출처: Tom’s Hardware, 2026.03.17).

Groq는 원래 2025년 회계연도 매출 목표를 $500M으로 잡고 있었지만, 그것도 독립 유지에는 부족했습니다. CUDA 생태계 밖에서 경쟁하는 경제성이 한계에 달했다는 분석이 나옵니다. Bernstein 애널리스트 Stacy Rasgon은 “비독점 라이선스 구조가 경쟁의 외양을 유지하면서 사실상 경쟁자를 무력화한다”고 평했습니다.

💡 2019년 Mellanox 인수와 반복되는 패턴

2019년 NVIDIA는 Mellanox를 $6.9B에 인수해 InfiniBand를 AI 클러스터 필수 인프라로 만들었습니다. Groq 역시 “외부 기술 → 플랫폼 내 영구 아키텍처 레이어”로 전환되는 경로를 밟고 있습니다. 한 번 자리 잡으면 교체가 어렵다는 게 CUDA 생태계의 역사적 패턴입니다.

이 구도는 단순히 “좋은 칩이 나왔다”는 이야기가 아닙니다. Cerebras, Untether AI(AMD에 흡수), SambaNova(Intel 투자)까지, 독립 추론 칩 스타트업들이 모두 대형 플랫폼에 편입되고 있습니다. LPX가 CUDA 생태계의 새로운 레이어가 된다는 건, 나중에 교체할 선택지가 줄어든다는 뜻이기도 합니다.

▲ 목차로 돌아가기

Q&A

Q. Groq 3 LPX는 언제부터 실제로 쓸 수 있나요?
NVIDIA 공식 발표 기준 2026년 하반기(2H 2026) 출시 예정입니다. AWS가 GTC 현장에서 Groq 3 LPU를 100만 개 이상의 NVIDIA GPU와 함께 배포하겠다고 발표했습니다. 일반 기업용 서버 제품으로 구매 가능한 시점은 아직 별도 공개되지 않았습니다(출처: Tom’s Hardware, 2026.03.17).
Q. Groq 3 LPX는 단독으로도 작동하나요?
공식 자료에서는 단독 운용에 대한 언급이 없습니다. 공식 구조상 prefill 단계는 Rubin GPU(NVL72)가 처리하고, decode 단계를 LPX가 담당하는 조합으로 설계됐습니다. NVIDIA Dynamo 1.0 오케스트레이션 플랫폼이 두 하드웨어 간 워크로드를 분배합니다.
Q. Rubin CPX는 완전히 취소된 건가요?
NVIDIA가 공식 취소 여부를 발표한 바 없습니다. GTC 2026 키노트 슬라이드에서 완전히 빠졌고, Tom’s Hardware 분석(2026.03.17)에 따르면 로드맵에서 제거된 것으로 보입니다. 기존에 CPX 관련 소프트웨어 최적화를 진행한 파트너에게는 별도 공급이 이뤄질 수도 있다고 전망됩니다.
Q. LP30 다음 버전이 있나요?
있습니다. 공식 로드맵에서 LP35(Rubin Ultra 세대, NVFP4 지원)와 LP40(다음 Feynman 아키텍처 세대, NVLink 지원)이 예고됐습니다(출처: Tom’s Hardware, 2026.03.17 / NVIDIA GTC 2026 Keynote PDF p.50). LP40은 Rosa CPU와 함께 Feynman 세대 AI 팩토리를 구성할 예정입니다.
Q. 일반 기업이 이 기술을 바로 도입할 필요가 있나요?
Moor Insights & Strategy의 Matt Kimball과 Greyhound Research의 Sanchit Vir Gogia 모두 같은 방향으로 얘기합니다. 실제로 조 단위 파라미터 모델을 실시간으로 추론해야 하는 대형 AI 서비스 사업자가 아니라면, 지금 당장 LPX 규모의 인프라가 필요하지 않을 가능성이 높습니다. 많은 기업에서 AI 인프라의 실질적 개선은 더 나은 모델 라우팅, 캐싱, 워크플로우 재설계에서 먼저 나옵니다(출처: NetworkWorld, 2026.03.17).

▲ 목차로 돌아가기

마치며

Groq 3 LPX를 한 줄로 요약하면 이렇습니다. GPU의 약점을 채우는 파트너 칩이지, GPU를 대체하는 칩이 아닙니다. 150 TB/s SRAM 대역폭은 인상적이지만, 그게 작동하려면 옆에 Rubin GPU가 반드시 있어야 합니다.

35배라는 숫자는 실제이지만, 조 단위 파라미터 모델 + 초고가 워크로드 + MW당 효율 기준이라는 조건이 붙습니다. 그 조건 밖에서는 2~3배 수준입니다. Rubin CPX가 로드맵에서 사라진 것도 놓치면 안 되는 대목입니다. 아무런 공식 발표 없이 조용히 빠진 것이기 때문입니다.

Groq라는 회사가 $20B에 기술을 넘긴 배경도 한번 생각해볼 만합니다. 연매출 목표 $500M도 독립 유지에 부족했던 스타트업의 기술이, NVIDIA 플랫폼 안에 들어와서 영구적인 아키텍처 레이어가 됩니다. Mellanox가 그랬던 것처럼요. 나중에 교체하기 어려운 구조가 된다는 뜻입니다.

2026년 하반기 실제 출하가 시작되면 더 많은 수치가 나올 것입니다. 지금은 공식 발표 수치를 기준으로, 조건을 정확히 파악하고 보는 시점입니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료
  1. NVIDIA Vera Rubin Platform 공식 발표 — NVIDIA Newsroom (2026.03.16)
  2. NVIDIA GTC 2026 Keynote 공식 슬라이드 PDF (2026.03.16)
  3. The Decoder — GTC 2026: With Groq 3 LPX, Nvidia adds dedicated inference hardware (2026.03.17)
  4. NetworkWorld — Nvidia targets inference as AI’s next battleground with Groq 3 LPX (2026.03.17)
  5. Tom’s Hardware — Nvidia’s $20 billion Groq deal produces its first chip (2026.03.17)
  6. NVIDIA 공식 블로그 — GTC 2026 Live Updates (2026.03.16~19)

본 포스팅은 2026년 3월 22일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. NVIDIA Groq 3 LPX는 2026년 하반기 출시 예정 제품으로, 실제 출하 이후 수치가 달라질 수 있습니다. 인용된 수치는 NVIDIA 공식 발표 자료 기준이며, 실제 워크로드 환경에 따라 결과가 다를 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기