Groq 3 LPU, 삼성이 만든다는 말이 진짜일까요?

Published on

in

Groq 3 LPU, 삼성이 만든다는 말이 진짜일까요?

2026.03.19 기준
GTC 2026 발표 직후
Groq 3 LPU / Vera Rubin 플랫폼 기준

Groq 3 LPU, 삼성이 만든다는 말이 진짜일까요?

2026년 3월 16일, 젠슨 황은 GTC 무대에서 이례적으로 삼성전자에 감사를 전했습니다. “삼성이 우리를 위해 Groq 3 LPU를 만들고 있다”는 발언이 현장을 뒤집었는데요. Groq 3 LPU가 정확히 무엇인지, GPU와 어떻게 다른지, 그리고 알려진 것과 달리 이 칩이 GPU를 ‘대체’하지 않는다는 사실까지 공식 수치로 짚어봤습니다.

150 TB/s
Groq 3 LPU 온칩 SRAM 대역폭
35×
GB200 대비 추론 처리량(TPS/MW)
29조 원
엔비디아의 Groq 기술 도입 규모
4nm
삼성 파운드리 생산 공정

Groq 3 LPU가 갑자기 나온 배경

결론부터 말씀드리면, 2025년 크리스마스 이브에 엔비디아가 AI 추론 스타트업 Groq의 자산과 기술 라이선스를 약 200억 달러(약 29조 8,000억 원)에 인수하는 계약을 체결했습니다. 역대 최대 규모 딜이었는데, 당시에는 “왜 이렇게 급하게, 이렇게 비싸게?”라는 의문이 컸습니다. (출처: CNBC, 2025.12.24)

그 답이 GTC 2026에서 나왔습니다. 엔비디아는 차세대 AI 가속기 플랫폼 ‘베라 루빈(Vera Rubin)’에 Groq의 LPU를 내장하기로 했고, 이 칩이 바로 Groq 3 LPU입니다. 젠슨 황 CEO는 GTC 현장에서 “AI 에이전트 시대가 오면서 필요한 추론의 양이 ChatGPT 초기의 1만 배로 증가했다”며 “추론의 변곡점이 도래했다”고 말했습니다. (출처: 동아일보, 2026.03.17)

여기서 핵심은 ‘추론(inference)’입니다. AI가 모델을 학습하는 단계는 GPU가 압도적으로 유리하지만, 실제로 질문에 답하고 에이전트가 판단하는 ‘추론’ 단계에서는 다른 요구 조건이 생깁니다. 빠르게, 그리고 예측 가능하게 토큰을 생성해야 한다는 것인데 — 이 부분에서 GPU 구조의 한계가 드러납니다.

💡 공식 발표문과 인수 구조를 같이 놓고 보니 이런 차이가 보였습니다 — 엔비디아는 Groq를 ‘흡수’한 것이 아니라 기술 비독점 라이선스와 핵심 인력을 확보하는 방식으로 도입했습니다. 즉, Groq의 LPU 기술은 타사도 계속 사용할 수 있고, 엔비디아는 그 기술을 자사 플랫폼에 통합한 것입니다. (출처: ServeTheHome, 2026.03.17)

▲ 목차로 돌아가기

GPU가 ‘느린’ 순간이 존재합니다

솔직히 말하면, “GPU가 빠르다”는 건 상황에 따라 다릅니다. AI 추론 과정은 크게 두 단계로 나뉩니다. 먼저 긴 입력 텍스트를 한꺼번에 처리하는 프리필(prefill) 단계, 그다음 토큰 하나씩 순차 생성하는 디코드(decode) 단계입니다.

GPU는 프리필에서 강합니다. 병렬 처리 능력이 뛰어나 대량의 데이터를 한 번에 처리하는 데 최적화돼 있기 때문입니다. 그러나 디코드는 근본적으로 직렬(serial) 작업입니다. 이전 토큰이 생성돼야 다음 토큰을 생성할 수 있고, 이 과정에서 메모리 대역폭과 레이턴시(지연시간)가 핵심이 됩니다. 대규모 병렬 처리에 최적화된 GPU는 이 직렬 구간에서 레이턴시를 낮추는 데 구조적 한계가 있습니다. (출처: NVIDIA Developer Blog, 2026.03.16)

AI 에이전트끼리 통신하려면 사람이 읽는 속도(초당 약 100 토큰)가 아니라 생각하는 속도로 토큰을 주고받아야 합니다. 엔비디아가 GTC에서 제시한 목표 수치는 초당 1,500 토큰입니다. 사람 독해 속도의 15배인데, GPU 단독으로는 이 레이턴시 목표를 달성하기 어렵습니다. (출처: TechZine, 2026.03.16)

💡 “GPU가 AI를 처리한다”는 말은 맞지만, 어떤 단계의 AI 처리인지에 따라 달라집니다. 추론 디코드 단계는 GPU의 강점인 병렬 처리가 오히려 걸림돌이 됩니다. 하나씩 순서대로 처리해야 할 작업에 거대한 병렬 기계를 쓰는 비효율이 발생하는 것입니다.

▲ 목차로 돌아가기

150 TB/s가 어느 정도인지 감이 안 잡힌다면

Groq 3 LPU의 핵심 스펙은 칩 하나에 500MB의 온칩 SRAM을 탑재하고, 그 SRAM 대역폭이 초당 150 테라바이트(TB/s)에 달한다는 것입니다. (출처: NVIDIA Developer Blog, 2026.03.16)

항목 Groq 3 LPU (LP30) Groq 3 LPX (랙 단위)
온칩 SRAM 500 MB 128 GB (256칩)
SRAM 대역폭 150 TB/s 40 PB/s
AI 추론 연산 315 PFLOPS (FP8)
스케일업 대역폭 2.5 TB/s (C2C) 640 TB/s
C2C 링크 수 96개 × 112 Gbps 256칩 연결

출처: NVIDIA Developer Blog (developer.nvidia.com), 2026.03.16

비교를 위해 숫자를 뒤집어 보겠습니다. HBM(고대역폭메모리)를 탑재한 현재 최고 GPU도 메모리 대역폭은 보통 3~5 TB/s 수준입니다. Groq 3 LPU의 온칩 SRAM 대역폭 150 TB/s는 그보다 30~50배 높은 수치입니다. 이것이 가능한 이유는 SRAM이 DRAM이나 HBM보다 속도는 훨씬 빠르지만 용량당 단가가 매우 비싸기 때문입니다. 즉, 500MB라는 ‘작은’ 용량에 모든 속도를 집중한 설계입니다.

랙 단위(LPX)로 보면 256개의 LPU를 연결해 총 SRAM 128GB, 랙 전체 SRAM 대역폭 40 PB/s(페타바이트)를 달성합니다. 이 수치가 의미하는 바는 디코드 단계에서 모델 가중치 데이터가 실시간으로 공급될 때 병목이 사실상 사라진다는 것입니다.

▲ 목차로 돌아가기

삼성 4nm 공정 — 이 조합이 나온 이유

젠슨 황이 GTC 현장에서 삼성전자 부스를 직접 찾아 “가자(GO) 삼성”을 외치고 Groq LPU 웨이퍼에 “Groq Super FAST”라고 친필 서명한 사건이 화제가 됐는데요. 이게 단순한 쇼가 아닌 이유가 있습니다.

황상준 삼성전자 메모리개발담당 부사장은 GTC 현장에서 기자들과 만나 “추론 전용 칩 Groq는 평택 캠퍼스에서 생산 중“이며 “이미 예상보다 많은 주문이 들어왔다”고 밝혔습니다. 생산 공정은 삼성 파운드리 4nm입니다. (출처: 동아일보, 2026.03.17)

이 조합이 성립한 배경이 흥미롭습니다. 기존 Groq(스타트업 시절)도 삼성전자 파운드리를 써왔습니다. TSMC의 CoWoS 고급 패키징 공정이 필요한 HBM 기반 GPU와 달리, LPU는 HBM을 쓰지 않는 구조라 삼성 4nm 단일 공정으로도 구현이 가능합니다. 엔비디아 입장에서는 TSMC 의존도를 분산하고, 삼성과의 파운드리 협력 관계를 파운드리 영역으로까지 확장하는 효과도 있습니다.

출하 일정은 2026년 3분기(7~9월)로 예정돼 있습니다. 현재는 생산 중이며 양산 준비 단계라고 보면 됩니다. (출처: 동아일보, 2026.03.17 / 확인 필요: 정확한 출하 물량 및 가격은 아직 미발표)

💡 삼성이 HBM으로 엔비디아와 협력한다는 건 알려진 사실이지만, 이번에 파운드리(칩 위탁생산)까지 협력이 확장됐다는 점이 핵심입니다. 이는 엔비디아-삼성 동맹이 메모리 공급을 넘어 제조 단계 전체로 깊어지고 있다는 신호입니다.

▲ 목차로 돌아가기

Groq 3 LPU가 담당하지 않는 영역

막상 알고 보면 이 단계에서 많이들 오해합니다. “Groq 3 LPU가 추론을 다 처리하는 것 아닌가요?” — 아닙니다.

엔비디아의 공식 아키텍처 설명에 따르면, Vera Rubin NVL72(GPU 랙)와 Groq 3 LPX(LPU 랙)는 디코드 단계를 분업합니다. GPU는 프리필 전체디코드 중 어텐션(Attention)을 맡습니다. LPU는 디코드 중 FFN(피드포워드 네트워크) / MoE 전문가 실행 만을 담당합니다. 이를 AFD(Attention-FFN Disaggregation)라고 부릅니다. (출처: NVIDIA Developer Blog, 2026.03.16)

이 분업 구조가 중요한 이유는 두 가지입니다. 첫째, LPU가 전체 추론을 대체하는 것이 아니므로 Groq 3 LPX는 반드시 Vera Rubin NVL72와 함께 사용해야 합니다. 단독으로는 작동하지 않습니다. 둘째, 이 이분법적 분업이 성립하려면 NVIDIA Dynamo 1.0이라는 오케스트레이션 소프트웨어가 필요합니다. GPU와 LPU 사이에서 요청을 분류하고, 중간 활성화 값(intermediate activations)을 낮은 오버헤드로 주고받는 역할을 Dynamo가 합니다.

⚠️ 현실적 한계 체크

Groq 3 LPX 랙을 도입한다고 해서 바로 35배 성능이 나오는 것은 아닙니다. 소프트웨어(Dynamo), 네트워크 인프라, 그리고 모델이 MoE 구조를 지원해야 하는 조건이 전제됩니다. 특히 MoE가 아닌 Dense 모델에서는 AFD의 효과가 제한적일 수 있습니다. (확인 필요: 구체적 Dense 모델 성능 수치는 아직 공개되지 않음)

▲ 목차로 돌아가기

Cerebras와 비교하면 어떻게 되나요

기대했던 것과 달랐습니다. Groq가 엔비디아에 인수된 이후 “추론 특화칩 중 최강”이라는 이미지가 굳어졌는데, 실제로는 인수 전 Cerebras의 자체 비교 데이터가 존재합니다.

Cerebras는 2025년 9월 공식 블로그에서 CS-3와 Groq LPU를 직접 비교했고, CS-3가 최전선 LLM 추론에서 Groq 대비 약 6배 빠른 속도를 달성했으며, 정확도와 전력 효율에서도 우위라고 주장했습니다. (출처: Cerebras 공식 블로그, 2025.09.19)

그렇다면 Groq이 인수된 이유가 “최강 칩이어서”가 아닐 수 있다는 뜻입니다. ServeTheHome의 분석에 따르면, 엔비디아가 Groq를 도입한 핵심 이유는 단순 성능보다 결정론적 실행(deterministic execution)이라는 설계 철학 때문입니다. 컴파일러가 모든 명령 타이밍을 사전에 확정하기 때문에 레이턴시 편차(jitter)가 없고, 이것이 에이전트끼리의 실시간 통신에 결정적으로 유리합니다. (출처: ServeTheHome, 2026.03.17)

💡 흔히 성능을 ‘빠른 처리 속도’로만 생각하지만, 에이전트 AI 인프라에서는 ‘얼마나 예측 가능한가’가 더 중요한 기준이 될 수 있습니다. Groq LPU의 컴파일러 기반 정적 스케줄링은 이 예측 가능성 측면에서 독보적입니다.

Cerebras는 이번 GTC 2026 주간에 AWS Trainium과의 파트너십 계약을 별도로 발표하며 존재감을 과시했습니다. (출처: TechZine, 2026.03.16) 두 기술이 공존하는 구도가 당분간 이어질 것으로 보입니다.

▲ 목차로 돌아가기

Q&A

Q1. Groq 3 LPU는 언제부터 실제로 쓸 수 있나요?

젠슨 황 CEO 발표 기준 2026년 3분기(7~9월) 출하 시작 예정입니다. 삼성 평택 캠퍼스에서 생산 중이며 예상보다 주문이 많다고 합니다. 다만 초기에는 대형 데이터센터 사업자 중심 공급이 예상되고, 구체적 출하 규모와 가격은 아직 공개되지 않았습니다. (확인 필요)

Q2. GPU를 가진 사람은 LPU로 교체해야 하나요?

아닙니다. Groq 3 LPX는 Vera Rubin NVL72(GPU 랙)와 함께 써야 하는 보조 가속기입니다. GPU를 대체하는 것이 아니라 디코드의 FFN/MoE 구간에서만 역할을 분담합니다. 소비자용 GPU와는 무관한 데이터센터급 기술입니다.

Q3. “35배 효율”이라는 수치, 어떤 조건에서 나온 건가요?

Vera Rubin NVL72 + Groq 3 LPX 조합을 기준으로, 초당 400 토큰/사용자 인터랙티비티 기준에서 Grace Blackwell NVL72(GB200) 대비 전력당 처리량(TPS/MW)이 35배 높다는 수치입니다. 조건이 다르면 수치도 달라지며, MoE 구조 대형 모델에서의 측정치입니다. (출처: NVIDIA Developer Blog, 2026.03.16)

Q4. 엔비디아가 Groq를 ‘인수’한 게 맞나요?

정확하게는 비독점 기술 라이선스 계약과 핵심 인력 채용입니다. Groq의 서비스(groq.com API 등)는 별도 법인으로 계속 운영 중이며, LPU 기술을 다른 회사도 여전히 쓸 수 있습니다. 엔비디아는 이 기술을 자사 플랫폼에 통합할 권리를 약 200억 달러에 확보한 것입니다. (출처: CNBC, 2025.12.24 / ServeTheHome, 2026.03.17)

Q5. 삼성전자 주가에 영향이 있을까요?

본 포스팅은 투자 조언을 제공하지 않습니다. 다만 사실 관계만 말씀드리면, 이번 협력은 HBM 메모리 공급을 넘어 파운드리(칩 제조) 영역까지 삼성-엔비디아 협력이 확장된 것입니다. 삼성전자 파운드리 사업부장이 GTC 현장에서 젠슨 황과 나란히 서 있었다는 사실 자체가 그 관계의 깊이를 보여줍니다.

▲ 목차로 돌아가기

마치며 — 이게 진짜 추론 시대의 시작인가요?

솔직히 말하면 아직 판단하기 이릅니다. Groq 3 LPX는 2026년 3분기 출하 예정이고, 실제로 대규모 에이전트 워크로드에서 어떤 성능을 내는지는 더 지켜봐야 합니다.

그러나 구조적 의미는 분명합니다. 엔비디아가 그동안 “GPU 하나로 다 된다”는 기조를 유지해왔는데, 이번에 처음으로 “디코드의 일부는 GPU가 잘 못 한다”는 걸 공식 인정하고 별도 칩을 들여온 것입니다. 이게 핵심입니다.

삼성전자 입장에서도 단순 HBM 납품처에서 벗어나, 엔비디아의 가장 중요한 추론칩을 직접 찍어내는 파운드리 파트너로 올라선 순간입니다. 젠슨 황의 “가자 삼성”이 단순한 덕담이 아닌 이유입니다.

막상 써보면 이 기술이 실제 서비스에서 어떤 차이를 만드는지 — 특히 ChatGPT나 Gemini 같은 인터랙티브 서비스의 응답 속도에 어떤 변화를 줄지 — 2026년 하반기가 진짜 테스트 무대가 될 것입니다.

📌 본 포스팅 참고 자료

  1. NVIDIA Developer Blog — Inside NVIDIA Groq 3 LPX (2026.03.16): developer.nvidia.com/blog/inside-nvidia-groq-3-lpx…
  2. 동아일보 — 젠슨 황 “삼성에 감사” GTC 2026 현장 보도 (2026.03.17): donga.com/news/Economy/…/133548688/1
  3. ServeTheHome — Decoding the Future of Inference At NVIDIA (2026.03.17): servethehome.com/decoding-the-future…
  4. TechZine — Nvidia’s Groq 3 LPU targets agentic AI inference at GTC 2026 (2026.03.16): techzine.eu/news/…/139653/…
  5. Cerebras 공식 블로그 — CS-3 vs Groq LPU 비교 (2025.09.19): cerebras.ai/blog/cerebras-cs-3-vs-groq-lpu
  6. CNBC — Nvidia buying AI chip startup Groq for about $20 billion (2025.12.24): cnbc.com/2025/12/24/nvidia-buying-ai-chip-startup-groq…

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 공식 발표 기준이며, 실제 환경에서의 성능은 구성에 따라 달라질 수 있습니다. 투자 조언을 포함하지 않습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기