NVIDIA Groq 3 LPX / LP30 기준
엔비디아 LPU, CUDA 안 되는 칩에 29조 쓴 이유
GTC 2026에서 공개된 Groq 3 LPX. CUDA도 NVLink도 없는 칩인데 엔비디아는 왜 역대 최대 규모의 돈을 썼을까요. 공식 문서에서 직접 숫자를 뽑아 따져봤습니다.
엔비디아 LPU가 뭔지부터 짚고 가겠습니다
2026년 3월 17일, GTC 2026에서 젠슨 황이 가죽 재킷을 입고 무대에 오르며 꺼낸 카드 중 하나가 바로 엔비디아 LPU(Language Processing Unit)입니다. 정확히는 ‘NVIDIA Groq 3 LPX’라는 이름의 추론 전용 가속기 랙 시스템입니다. 엔비디아가 2025년 크리스마스이브에 AI 칩 스타트업 Groq의 자산을 200억 달러(약 29조 원)에 인수한 결과물이에요.
LPU는 원래 Groq이 독자적으로 설계한 구조로, GPU처럼 캐시 없이 온칩 SRAM에 연산을 모두 올려두는 방식입니다. 엔비디아의 Rubin GPU와는 완전히 다른 아키텍처예요. 칩 하나(LP30)가 500MB의 초고속 SRAM을 탑재하고, 랙 하나(LPX)에 256개 LPU를 집어넣어 총 128GB SRAM과 40PB/s의 집약적 대역폭을 냅니다. (출처: NVIDIA 공식 LPX 제품 페이지, 2026.03.17)
엔비디아 베라 루빈 플랫폼에서 LPX는 일곱 번째 칩으로 편입됩니다. 즉, AI 팩토리 안에서 GPU 옆에 나란히 붙어 일하는 구조예요.
💡 공식 발표문과 실제 칩 스펙을 같이 보면 이게 단순한 신제품 발표가 아니라 엔비디아 아키텍처 자체가 바뀌는 신호임을 알 수 있습니다. GPU만으로 모든 걸 돌리던 시대가 공식적으로 끝났습니다.
CUDA도 NVLink도 없는 칩 — 뭐가 다른가
솔직히 말하면, 이 부분이 가장 놀라웠습니다. LP30 칩은 출시 기준 CUDA 미지원, NVLink 미지원, NVFP4 하드웨어 미지원입니다. (출처: The Register, “A closer look at Nvidia’s Groq-powered LPX rack systems”, 2026.03.19) 엔비디아 제품인데 CUDA가 안 된다는 게 얼핏 말이 안 돼 보이죠. 하지만 이건 엔비디아가 Groq의 2세대 LPU 기술을 그대로 가져왔기 때문입니다. 최소한의 수정만 하고 삼성 4nm 공정에서 찍어냈어요.
구조 자체도 GPU와 완전히 다릅니다. LP30은 폰 노이만 아키텍처를 버리고 데이터플로우(Data Flow) 아키텍처를 씁니다. 메모리에서 명령어를 받아 처리하는 대신, 데이터가 칩 위를 흐르는 방식으로 연산합니다. 덕분에 Load/Store 지연이 없고 실행이 결정론적(Deterministic)이에요. 컴파일러가 타이밍을 전부 설계해 런타임 스케줄러 없이 돌아갑니다.
CUDA는 NVFP4 지원을 갖춘 차세대 LP35부터 들어올 예정입니다. LP35는 루빈 울트라 세대와 맞물리는 시기에 출시될 것으로 보입니다. 현재 공개된 로드맵에는 그 다음으로 파인만 아키텍처 시대에 맞춘 LP40까지 계획돼 있어요.
📊 LP30 vs Rubin GPU — 핵심 차이 한눈에
| 항목 | Groq 3 LPU(LP30) | Rubin GPU(R200) |
|---|---|---|
| 온칩 메모리 | 500 MB SRAM | 288 GB HBM4 |
| 메모리 대역폭 | 150 TB/s | 22 TB/s |
| CUDA 지원 | ❌ LP30 미지원 | ✅ 지원 |
| NVLink | ❌ 없음 | ✅ NVLink 6 |
| 제조 파운드리 | 삼성 4nm | TSMC |
| 주용도 | 저지연 디코드 | 학습 + 프리필 + 디코드 |
(출처: NVIDIA 공식 LPX 페이지, The Register 2026.03.19 기준)
29조를 쓴 진짜 이유는 성능이 아니었습니다
많은 사람이 이렇게 생각합니다. “엔비디아가 Groq 기술이 너무 좋아서 200억 달러를 줬겠지.” 그런데 The Register의 분석은 다른 이야기를 합니다. 만약 엔비디아가 SRAM 기반 추론 가속기를 직접 만들고 싶었다면 기술적으로 충분히 가능했을 거라고 봅니다. 실제로 LP30은 Groq의 2세대 기술에 ‘막판 소규모 수정’만 더한 수준이에요. (출처: The Register, 2026.03.19)
핵심은 시간이었습니다. Cerebras는 AWS와 협업해 Trainium-3와 웨이퍼 스케일 가속기를 엮는 이종(異種) 추론 플랫폼을 준비 중입니다. AMD는 Untether AI 팀을 인수했고, Meta는 MTIA 칩을 자체 생산하면서 MTIA 400이 이미 랩 테스트 중입니다. 엔비디아가 처음부터 직접 칩을 설계했다면 최소 2~3년이 더 걸렸을 거예요.
29조는 2026년 하반기 출하를 맞추기 위한 ‘시간 구매 비용’이었습니다. 젠슨 황은 GTC에서 고성능 저지연 추론 서비스의 토큰 단가를 최대 150달러/백만 토큰까지 올릴 수 있다고 공개적으로 언급했습니다. 이를 기반으로 보면 LPX 랙 1기가 연간 만들어낼 수 있는 매출 기회는 천문학적입니다. 엔비디아 공식 자료에선 Rubin+LPX 조합이 GB200 NVL72 대비 기가와트당 연간 매출을 10배까지 끌어올릴 수 있다고 밝히고 있어요. (출처: NVIDIA developer blog, 2026.03.17)
💡 Groq의 기존 독립 경영 당시 연간 매출 목표가 5억 달러였다는 점을 놓고 보면, 200억 달러라는 가격은 단순 기술 값이 아닙니다. 독립 경쟁자를 시장에서 지우고 자기 플랫폼으로 흡수하는 구조적 선택이었습니다.
GPU와 LPU가 나눠서 일하는 방식
엔비디아 LPU는 GPU를 대체하지 않습니다. 처음부터 GPU 옆에 붙어 일하도록 설계됐습니다. AI 추론 과정을 두 단계로 나누면 이해가 빠릅니다. 입력 컨텍스트를 처리하며 KV 캐시를 만드는 ‘프리필(Prefill)’ 단계와, 토큰을 하나씩 순차적으로 생성하는 ‘디코드(Decode)’ 단계입니다.
Rubin GPU는 프리필과 디코드 중 어텐션(Attention) 연산을 담당합니다. 그리고 디코드 단계에서 FFN/MoE(피드포워드 네트워크·혼합 전문가) 레이어는 LPX가 맡아 가져갑니다. NVIDIA Dynamo가 두 하드웨어 사이 중간 활성값(Interim Tensor State)을 주고받으며 흐름을 조율해요. 이 구조를 AFD(Attention-FFN Disaggregation)라고 부릅니다. (출처: NVIDIA developer blog, 2026.03.17)
수치로 확인하면 이렇습니다. LPU 칩 1개의 SRAM 대역폭은 150TB/s인데, Rubin GPU의 HBM4 대역폭은 22TB/s입니다. 대역폭이 약 6.8배 차이납니다. FFN 레이어는 메모리를 연속적으로 빠르게 읽는 연산이라 대역폭이 곧 속도입니다. GPU가 잘하는 어텐션(병렬 연산, 대용량 메모리)과 LPU가 잘하는 FFN(초고속 대역폭, 저지연)을 역할 분리한 거예요.
🔄 추론 파이프라인 역할 분담
Rubin GPU 담당
• 프리필(긴 컨텍스트 처리)
• 디코드 어텐션(KV 캐시)
• 고동시성 서빙
LPX(Groq 3 LPU) 담당
• 디코드 FFN/MoE 레이어
• 투기적 디코딩 드래프트 생성
• 초저지연 토큰 생성
투기적 디코딩(Speculative Decoding) 구조에서도 LPU가 유리합니다. 더 작은 드래프트 모델을 LPU에 올리고 큰 타깃 모델은 GPU에 두는 방식으로 토큰 생성 속도를 2~3배 끌어올릴 수 있습니다. (출처: NVIDIA developer blog, 2026.03.17)
사라진 CPX — 조용히 묻힌 이유
GTC 2026 키노트 슬라이드 어디에도 Rubin CPX가 등장하지 않았습니다. 2025년 9월 Computex에서 공개됐던 이 칩은 GDDR7 메모리를 써서 프리필 단계의 첫 응답 대기 시간(TTFT)을 줄이는 목적으로 설계됐어요. 그런데 조용히 로드맵에서 사라졌습니다. (출처: Tom’s Hardware, 2026.03.17)
여기서 흥미로운 점이 있습니다. LPX와 CPX는 사실 서로 다른 문제를 해결하는 칩입니다. CPX는 프리필 가속, LPX는 디코드 가속이에요. 논리적으로는 둘 다 있어야 할 것 같죠. 그런데 엔비디아는 LPX를 선택하고 CPX를 잠정 보류했습니다. 이유는 공개되지 않았지만, HBM 공급 제약이 계속되는 시장에서 GDDR7이 들어가는 CPX보다 순수 SRAM 기반 LPX가 공급망 관리에 유리했을 가능성이 큽니다.
Ian Buck(NVIDIA 하이퍼스케일 부문 VP)은 언론에 CPX 개념이 여전히 유효하고 미래 세대에서 되살아날 수 있다고 밝혔지만, 현재로서는 LPX가 모든 우선순위를 가져가고 있는 상태입니다. CPX 소프트웨어 최적화에 투자한 고객에게는 해당 제품이 조용히 출하될 수도 있습니다.
1조짜리 모델에도 LPU가 부족한 상황
LPX가 아무리 빠르다고 해도 현실적인 한계가 있습니다. LP30 칩 하나의 SRAM은 500MB입니다. Rubin GPU 하나에 붙은 HBM4 모듈 1개가 36GB인 것과 비교하면 용량 차이가 72배입니다. (출처: The Register, 2026.03.19) 속도가 아무리 빨라도 모델 가중치를 담지 못하면 의미가 없어요.
그래서 엔비디아가 타깃으로 잡은 조 단위(Trillion) 파라미터 모델을 LPX에서 돌리려면 여러 랙을 연결해야 합니다. 가중치를 FP8(8비트) 정밀도로 저장하면 4~8개 LPX 랙, 즉 1,024~2,048개의 LPU가 필요하다는 게 The Register의 분석입니다. 이건 하이퍼스케일러·네오클라우드·대형 모델 개발사 수준의 투자입니다.
결국 LPX는 일반 기업 고객이 직접 도입하는 제품이 아닙니다. AWS는 이미 GTC에서 100만 개 이상의 엔비디아 GPU와 함께 Groq 3 LPU를 배포하겠다고 발표했어요. 일반 사용자 입장에서는 AWS·Azure·GCP 같은 클라우드를 통해 간접적으로 LPU가 만들어낸 빠른 응답을 경험하게 됩니다. LPX를 직접 구매하는 게 아니라 LPX가 돌리는 서비스를 쓰게 되는 구조입니다.
⚠️ 실용 포인트: 젠슨 황은 울트라 프리미엄 추론 서비스의 토큰 단가를 100~150달러/백만 토큰까지 받을 수 있다고 공개적으로 언급했습니다. 현재 주류 모델의 토큰 단가보다 훨씬 비싸지는 프리미엄 AI 서비스 시대가 오고 있다는 뜻입니다. 빠른 추론이 곧 가격 차별화 포인트가 됩니다.
Q&A
마치며
엔비디아 LPU(Groq 3 LPX)는 단순히 “더 빠른 칩”이 아닙니다. GPU만으로 모든 AI 연산을 감당하던 엔비디아의 아키텍처가 처음으로 이종 구조로 분화됐다는 신호입니다. CUDA도 NVLink도 없는 칩에 29조 원을 쓴 건 기술 경쟁이 아니라 시간 경쟁이었고, 그 뒤에는 아직 아무도 크게 다루지 않은 CPX 소멸 스토리가 숨어 있습니다.
개인적으로는 LP35에서 CUDA 지원이 추가되는 시점이 더 중요한 변곡점이 될 것 같습니다. 그때부터 LPU가 개발자에게 직접 열리는 구조가 됩니다. 그전까지는 클라우드 서비스 뒤에서 조용히 토큰을 빠르게 만들어내는 역할에 머뭅니다. 속도가 가격이 되는 시대의 첫 번째 인프라가 이렇게 조용히 출하를 준비하고 있습니다.
본 포스팅 참고 자료
- NVIDIA 공식 LPX 제품 페이지 — https://www.nvidia.com/en-us/data-center/lpx/
- NVIDIA Developer Blog, “Inside NVIDIA Groq 3 LPX” (2026.03.17) — developer.nvidia.com
- NVIDIA 공식 보도자료, “NVIDIA Vera Rubin Platform” (2026.03.17) — nvidianews.nvidia.com
- The Register, “A closer look at Nvidia’s Groq-powered LPX rack systems” (2026.03.19) — theregister.com
- Tom’s Hardware, “How Nvidia’s $20 billion Groq 3 LPU deal reshapes the Vera Rubin platform” (2026.03.17) — tomshardware.com
본 포스팅은 2026년 3월 21일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. NVIDIA 제품 스펙·로드맵·출하 일정은 공식 채널을 통해 최종 확인하시기 바랍니다.

댓글 남기기