퓨리오사AI RNGD 완전정복: 엔비디아 절반 전력, 2.5배 효율

Published on

in

퓨리오사AI RNGD 완전정복: 엔비디아 절반 전력, 2.5배 효율

퓨리오사AI RNGD 완전정복

엔비디아 절반 전력으로 2.5배 추론 효율 — 한국산 AI 반도체가 달라졌다

2026년 1월 28일, 퓨리오사AI가 2세대 NPU RNGD(레니게이드)의 양산을 공식 선언했습니다.
TSMC 제조·ASUS 카드 생산으로 1차 물량 4,000장 인도가 완료됐고,
2026년 3월에는 8장 구성의 NXT RNGD 서버 모델까지 출시됩니다.
엔비디아 H100이 350~700W를 쓰는 동안, RNGD는 단 180W로
동급 이상의 AI 추론 성능을 내며 데이터센터 운영비 구조를 뒤흔들고 있습니다.

⚡ TDP 180W — H100의 1/4 수준
🇰🇷 한국산 NPU 양산 성공
📦 2026년 목표: 2만 장 생산
🔬 gpt-oss-120B 2장으로 구동

퓨리오사AI RNGD란? — 레니게이드가 선언한 AI 추론의 반란

퓨리오사AI RNGD(Renegade, 레니게이드)는 2017년 설립된 한국 AI 반도체 팹리스(설계 전문) 기업 퓨리오사AI가 개발한 2세대 신경망 처리 장치(NPU)입니다. 1세대 제품 워보이(Warboy)를 거쳐 한층 진화한 이 칩은 2024년 8월 미국 핫칩스(Hot Chips) 컨퍼런스에서 처음 공개되었고, 2026년 1월 28일 TSMC 위탁 생산 물량 4,000장의 첫 인도를 공식 발표하며 본격 상업화에 돌입했습니다.

RNGD의 핵심 포지션은 명확합니다. GPU가 AI 모델 학습에 최적화된 반면, RNGD는 완성된 모델을 실제 서비스에 투입하는 추론(Inference) 워크로드에 집중합니다. 이 시장은 현재 엔비디아가 GPU로 독점에 가깝게 지배하고 있지만, 추론 특화 NPU는 전력 효율과 비용 구조에서 GPU를 압도할 수 있는 전혀 다른 게임입니다.

💡 인사이트: 퓨리오사AI의 전략은 “GPU를 대체”가 아닌 “GPU와 공존”입니다. 학습은 GPU, 추론은 NPU라는 역할 분담 구조를 기업에 제안합니다. 이는 엔비디아와 정면 충돌보다는 새로운 시장을 창출하는 훨씬 현명한 포지셔닝이라고 생각합니다.

현재 글로벌 AI 반도체 시장에서 RNGD가 경쟁해야 할 상대는 그록(Groq) LPU, 텐스토렌트 웜홀·블랙홀, 세레브라스 WSE-3, 삼바노바 SN40L RDU 등입니다. 이들 모두 추론 효율을 극대화한 전문 칩들로, AI 서비스 운영비를 낮추려는 하이퍼스케일러와 엔터프라이즈 기업의 수요를 겨냥하고 있습니다.

▲ 목차로 돌아가기

RNGD 핵심 스펙 완전 분석 — 숫자로 보는 실제 경쟁력

추상적인 설명보다 숫자가 더 솔직합니다. RNGD PCIe 단일 카드와 8장으로 구성된 NXT RNGD 서버의 핵심 스펙을 엔비디아 H100 기준과 함께 정리합니다.

▲ RNGD PCIe vs NXT RNGD 서버 vs 엔비디아 H100 비교 (추론 기준)
항목 RNGD PCIe 카드 NXT RNGD 서버 (8장) 엔비디아 H100 (참고)
TDP(소비전력) 180W 3kW (시스템 전체) 350~700W
추론 성능 512 TFLOPS (FP8) 20 PFLOPS (INT8) ~1,979 TFLOPS (FP8)
메모리 48GB HBM3 384GB HBM3 + 1TB DDR5 80GB HBM3
메모리 대역폭 최대 1.5TB/s 3.35TB/s
인터페이스 PCIe Gen5 x16 4U 랙마운트 (AMD EPYC) PCIe Gen5 / NVLink
랙 연산 밀도 GPU 대비 2.5배 ↑ 표준 랙 5대 = 100 PFLOPS 기준값

전성비(와트당 성능)가 왜 이렇게 중요한가

LG AI 연구원의 실측 테스트에서 RNGD는 와트당 성능이 GPU 대비 2.25배로 측정되었고, NeurIPS 2025 발표에서는 15kW 랙 기준으로 엔비디아 H100 시스템 대비 3.5배 높은 토큰 처리량을 기록했습니다. 공랭(공기 냉각)으로도 안정 운영이 가능한 180W TDP는 수냉 인프라 없이도 기존 서버실에 그대로 장착할 수 있다는 의미로, TCO(총소유비용) 절감 효과가 상당합니다.

▲ 목차로 돌아가기

TCP 아키텍처의 비밀 — GPU가 못 하는 걸 NPU가 한다

RNGD의 성능 비결은 퓨리오사AI가 자체 개발한 TCP(Tensor Compression Processor, 텐서 축약 프로세서) 아키텍처에 있습니다. GPU는 연산 유닛(CUDA 코어)을 병렬로 배치하는 방식으로 높은 FLOPS를 달성하지만, 이 과정에서 메모리와 연산 유닛 사이에 불필요한 데이터 이동이 발생하며 전력을 낭비합니다.

TCP는 이름처럼 텐서(다차원 데이터 배열)를 연산 전에 압축하여 메모리 접근 횟수 자체를 줄이는 구조입니다. 줄어든 데이터 이동은 곧 줄어든 전력 소모이고, 동시에 연산 파이프라인의 병목을 해소하여 같은 전력으로 더 많은 추론 연산을 처리할 수 있게 합니다.

SDK 4.0이 더한 소프트웨어 최적화 4가지

하드웨어만으로는 반쪽짜리입니다. 2026년 1월 함께 업데이트된 퓨리오사 SDK 4.0이 RNGD의 실제 성능을 결정하는 소프트웨어 엔진입니다.

① 하이브리드 배칭

서로 다른 유형의 추론 요청을 효율적으로 묶어 NPU 가동률·처리량 극대화

② 풀드 모델링

모델 가중치를 메모리에 상시 로드, 첫 요청 지연(cold start) 대폭 단축

③ Kubernetes 동적 할당

RNGD 워크로드 실행 중 CPU·메모리 자원을 쿠버네티스가 자동 추가 확보

④ torch.compile() 백엔드

PyTorch 모델을 NPU 최적 바이너리로 자동 컴파일, 개발 생산성 향상

💡 인사이트: SDK 4.0의 torch.compile() 백엔드 지원은 단순한 편의 기능이 아닙니다. 기존 PyTorch 생태계와의 호환성을 확보함으로써 “새 하드웨어 = 새 코드”라는 도입 장벽을 낮추는 핵심 전략입니다. IITP가 “NPU 기업들의 vLLM·PyTorch 지원이 실제 채택으로 이어지지 않는 문제”를 지적한 것을 감안하면, SDK 고도화는 하드웨어 양산만큼이나 중요한 과제입니다.

▲ 목차로 돌아가기

실제 도입 사례 — LG 엑사원·OpenAI gpt-oss-120B

퓨리오사AI RNGD의 성능이 실제 현장에서 어떻게 입증되었는지가 가장 중요합니다. 수치가 아닌 실 운영 사례로 RNGD의 가능성을 확인해 보겠습니다.

① LG 엑사원 3.5 32B — 실서비스 추론 적용

LG AI 연구원은 2025년 7월 엑사원(EXAONE) 3.5 32B 모델에 RNGD를 적용한 추론 컴퓨팅을 구현했습니다. RNGD 카드 4장을 장착한 단일 서버에서 배치 크기 1 기준으로 4K 컨텍스트 윈도우에서 초당 60토큰, 32K 컨텍스트 윈도우에서 초당 50토큰을 처리했습니다. 이는 실시간 서비스 투입이 가능한 수치이며, 엑사원의 상업적 배포 경로로 RNGD가 공식 채택되었다는 점에서 한국 AI 생태계의 내재화 사례로 의미가 큽니다.

② OpenAI gpt-oss-120B — 2장으로 120B 초거대 모델 구동

가장 충격적인 데모는 2025년 말 과학기술정보통신부 주관 AISFC 2025 행사에서 공개된 장면입니다. 퓨리오사AI는 단 두 장의 RNGD 카드로 OpenAI의 오픈 웨이트 대형 언어 모델 gpt-oss-120B를 온프레미스로 구동해 보였습니다. gpt-oss-120B는 1,200억 파라미터에 128개 전문가(Expert)를 지닌 MoE(Mixture-of-Experts) 구조로, 일반적으로 배포하려면 엔비디아 H100 멀티 GPU 구성이나 블랙웰(Blackwell) B100이 필요합니다.

퓨리오사AI는 TCP 아키텍처로 MXFP4(4비트 혼합 정밀도) 포맷을 하드웨어 파이프라인 단에서 직접 처리하도록 최적화했고, MoE 특성상 활성화된 전문가 가중치만 선택적으로 연산하는 방식을 적극 활용했습니다. 결과는 쿼리 입력 후 출력 토큰당 5.8ms의 초저지연, 즉 100B급 초거대 언어 모델도 오프라인 단일 서버 환경에서 RNGD로 충분히 운영 가능하다는 증명이었습니다.

💡 인사이트: gpt-oss-120B를 RNGD 2장으로 구동한 것은 단순한 기술 시연 이상의 의미를 가집니다. 기업이 자체 데이터센터(온프레미스)에서 100B급 LLM을 구동하려면 지금까지 억 단위 투자가 필요했습니다. RNGD가 이 구조를 바꾼다면, AI 인프라의 민주화가 현실에 한 걸음 더 가까워집니다.

▲ 목차로 돌아가기

2026년 출시 로드맵 — RNGD+·Max·2세대 서버까지

퓨리오사AI는 RNGD 양산을 시작점으로, 2026년 한 해에만 세 가지 중요한 신제품 이벤트를 예고하고 있습니다. 어떤 업그레이드가 기다리고 있는지 타임라인으로 정리합니다.

2026년 1월 ✅ 완료

RNGD 1차 양산 (4,000장) — TSMC 제조·ASUS 카드 생산, SDK 4.0 동시 출시. LG 엑사원, 국내 대기업 계열사 첫 발주 확인.

2026년 3월 🔄 진행 중

NXT RNGD 서버 모델 정식 출시 — RNGD 카드 8장 + AMD EPYC 프로세서 2개 탑재 4U 랙마운트 서버. 랙당 최대 20 PFLOPS 추론 성능.

2026년 9월 예정

RNGD+ 출시 — HBM3e 72GB 탑재 업그레이드 버전. 현재 RNGD 대비 메모리 용량 50% 증가로 더 큰 모델 지원 가능.

2026년 12월 예정

RNGD+ Max 출시 — RNGD 칩 2개를 결합한 HBM3e 144GB 고성능 모델. 단일 카드로 200B급 이상 LLM 추론을 목표.

2027년 예정

2세대 RNGD 서버 출시 — RNGD+ 기반 차세대 서버 플랫폼. 전력 효율과 밀도 추가 개선 목표.

2026년 연간 목표 생산량은 2만 장입니다. 1월 4,000장 첫 인도 이후 분기별 양산 속도를 높여야 달성 가능한 수치로, 엔터프라이즈·하이퍼스케일러 수요가 얼마나 빠르게 붙느냐가 관건입니다.

▲ 목차로 돌아가기

K-Perf와 정부 9.9조 지원 — 한국 AI 반도체 생태계

퓨리오사AI RNGD의 성공은 단독 기업의 이야기가 아닙니다. 2026년 한국 정부가 AI 분야에 쏟아붓는 예산 9.9조 원(2025년 대비 3배)과 함께 움직이고 있습니다. 그 중심에 K-Perf(Korea Performance) 컨소시엄이 있습니다.

K-Perf란 무엇인가

기존 AI 반도체 벤치마크의 표준인 MLPerf는 훈련 중심 평가로 실제 추론 환경과 괴리가 있다는 비판을 받아왔습니다. K-Perf는 공급자(퓨리오사AI·리벨리온·하이퍼액셀)와 사용자(네이버 클라우드·KT Cloud·NHN Cloud·삼성SDS·LG CNS·SKT·LG AI연구원·카카오엔터프라이즈·모레)가 함께 참여하는 공동 성능 평가 체계로, 2025년 12월 공식 출범했습니다.

평가 기준은 Meta Llama 3.1 8B·405B, Meta Llama 3.3 70B, LG EXAONE 4.0 32B를 활용하며 입출력 길이·동시 사용자 수·정밀도 테스트·출력 지연·초당 토큰 수·전력 소모를 측정합니다. 이를 통해 한국산 NPU가 실제 서비스 환경에서 얼마나 쓸 만한지를 공신력 있게 증명하는 경로가 생긴 것입니다.

2026년 정부 지원 12개 프로그램 핵심

IITP(정보통신기획평가원)는 2026년 AI 반도체 R&D에 12개 프로그램을 운영합니다. 핵심은 LPDDR6-PIM(Processing-In-Memory) 기반 AI 가속기 개발, NPU와 Kubernetes 연동 시스템 소프트웨어 최적화(엔비디아 NVLink에 대응하는 칩 간 통신 라이브러리), Meta Llama 8B 단일 서버 구동 평가 기준 도입입니다. 중소 팹리스 기업 16곳에 대한 설계·시제품 검증·양산 전 과정 지원도 포함됩니다.

💡 인사이트: 정부 9.9조 지원이 퓨리오사AI에 직접 흘러들어가는 것은 아닙니다. 그러나 K-Perf를 통한 수요 기업과의 연결, 클라우드 검증 인프라 지원, 해외 진출 지원은 퓨리오사AI가 단독으로 해결하기 어려운 생태계 구축을 국가가 보조하는 구조입니다. 이는 한국 AI 반도체 산업 전체의 신뢰도를 높이는 효과를 냅니다.

▲ 목차로 돌아가기

솔직한 총평 — RNGD가 엔비디아를 이길 수 있을까

결론부터 말하자면, RNGD는 엔비디아를 ‘이기는’ 것이 아니라 엔비디아가 독점한 시장에서 ‘다른 게임’을 하려 한다는 점에서 현실적인 전략을 택했습니다. AI 학습 시장은 엔비디아의 H100·블랙웰이 압도적이고, 이 생태계(CUDA, NVLink, cuDNN)를 단기에 대체하는 것은 구조적으로 불가능합니다.

그러나 추론 시장은 다릅니다. AI 서비스가 확산될수록 학습 비용보다 추론 비용이 전체 AI 인프라 지출의 더 큰 비중을 차지하게 되고, 이 시장에서 전력 효율과 TCO 경쟁력이 최우선 지표가 됩니다. RNGD가 제시하는 180W TDP·2.5배 랙 밀도·3.5배 토큰 처리량은 이 게임의 규칙에 정확히 맞춰져 있습니다.

물론 현실적 과제도 있습니다. 아직 소프트웨어 생태계(vLLM·PyTorch 호환성)가 엔비디아 수준에 미치지 못하고, 2만 장이라는 2026년 양산 목표도 엔비디아 연간 수백만 장에 비하면 극히 소규모입니다. IPO 전 자금 조달과 하이퍼스케일러 레퍼런스 확보가 앞으로의 가장 큰 변수가 될 것입니다.

개인적으로는 퓨리오사AI의 포지셔닝이 지금까지 한국 반도체 업계가 시도하지 못한 방향이라는 점에서 의미 있다고 생각합니다. 삼성·SK하이닉스는 메모리 분야에서 세계 1, 2위를 달리지만 AI 칩 설계 분야에서 한국 팹리스는 거의 무명이었습니다. RNGD가 gpt-oss-120B를 2장으로 구동하는 모습을 과기부 장관 앞에서 실시간 시연한 2025년 말은, 한국 AI 반도체 역사에서 하나의 이정표로 기록될 날입니다.

▲ 목차로 돌아가기

Q&A — 독자가 가장 많이 묻는 5가지

Q1. RNGD를 일반 기업이 직접 구매해서 쓸 수 있나요?

RNGD PCIe 카드는 기존 서버에 장착 가능한(drop-in) 형태로, PCIe Gen5 슬롯이 있는 서버라면 원칙적으로 도입이 가능합니다. 다만 현재(2026년 3월 기준) 1차 양산 물량이 4,000장으로 제한적이며, 퓨리오사AI 측에서 엔터프라이즈·하이퍼스케일러 고객을 우선 공급 대상으로 삼고 있습니다. 관심 기업은 퓨리오사AI 공식 채널을 통한 문의가 현실적입니다.

Q2. 퓨리오사AI RNGD와 리벨리온의 차이는 무엇인가요?

두 회사 모두 한국 AI 반도체 팹리스로 K-Perf 컨소시엄에 함께 참여하지만, 아키텍처 방향이 다릅니다. 퓨리오사AI는 TCP(텐서 축약 프로세서)로 추론 전력 효율과 MoE 모델 최적화에 집중합니다. 리벨리온은 ‘Atom’ 칩으로 온디바이스 AI와 엣지 시장까지 아우르는 더 넓은 스펙트럼을 공략합니다. 경쟁보다는 상호 보완 관계에 가깝습니다.

Q3. RNGD는 메타에서 인수 제안을 거절한 것이 사실인가요?

관련 보도에 따르면 퓨리오사AI는 과거 메타(Meta)의 인수 제안을 거절한 것으로 알려져 있습니다. 퓨리오사AI 측은 독립 기업으로서 글로벌 AI 반도체 시장에서 경쟁하겠다는 의지를 밝혔습니다. 이는 단기 회수보다 장기 가치를 선택한 경영 판단으로, IPO를 통한 독자 성장 경로를 추구하는 것으로 풀이됩니다.

Q4. RNGD와 기존 챗GPT, 클로드 등 AI 서비스는 어떤 관계인가요?

RNGD는 AI 서비스 자체가 아니라 AI 서비스를 운영하는 데이터센터의 인프라 하드웨어입니다. 예를 들어 기업이 사내 LLM 서비스를 운영하거나, 클라우드 업체가 AI API를 제공할 때 백엔드에서 추론 연산을 처리하는 칩입니다. 최종 사용자가 체감하는 응답 속도와 서비스 운영 비용에 영향을 줍니다.

Q5. 퓨리오사AI 상장(IPO) 일정은 언제인가요?

공식 IPO 일정은 2026년 3월 현재 확정 발표가 없습니다. RNGD 양산과 엔터프라이즈 레퍼런스 확보를 먼저 완성한 뒤 IPO를 진행한다는 것이 업계의 중론입니다. 퓨리오사AI 관련 투자에 관심이 있다면 공식 발표를 주시하시기 바랍니다. 현재는 비상장 장외 주식 형태로만 거래되고 있습니다.

▲ 목차로 돌아가기

마치며 — 한국산 AI 반도체, 지금이 가장 중요한 순간입니다

퓨리오사AI RNGD는 아직 완성된 성공 이야기가 아닙니다. 2026년 3월 현재, 이제 막 양산이 시작된 한국산 AI 추론 반도체입니다. 엔비디아의 CUDA 생태계만큼 두터운 소프트웨어 지원도, 수백만 장의 양산 규모도 갖추지 못했습니다.

그러나 RNGD가 증명한 것은 분명합니다. 180W로 120B 모델을 5.8ms에 응답하게 하는 기술력, LG 엑사원 상업 배포에 직접 투입된 현실적 완성도, 그리고 K-Perf와 9.9조 국가 지원이라는 생태계 백업이 갖춰지고 있습니다. “한국은 메모리만 잘 만든다”는 고정관념을 깨는 데 RNGD가 가장 강력한 반론입니다.

AI 인프라에 관심이 있는 기업 담당자라면 RNGD의 도입 로드맵을, 투자자라면 퓨리오사AI IPO 동향을, 개발자라면 SDK 4.0의 torch.compile() 지원 여부를 지금 확인해 보실 것을 권합니다. 2026년이 한국 AI 반도체의 진짜 출발점이 되는 해가 될 것입니다.

▲ 목차로 돌아가기

※ 본 콘텐츠는 공개된 기사·공식 발표 자료를 바탕으로 작성된 정보 제공용 콘텐츠입니다. 투자 판단의 근거로 활용하지 마시기 바라며, 최신 사양·가격·출시일은 퓨리오사AI 공식 채널을 통해 반드시 확인하시기 바랍니다. 본 콘텐츠의 일부 수치는 퓨리오사AI 및 제3자 측정 기관의 발표 기준이며 실제 운영 환경에 따라 다를 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기