퓨리오사AI 레니게이드: 엔비디아 없이 AI 추론 절반 비용에 돌리는 법

Published on

in

퓨리오사AI 레니게이드: 엔비디아 없이 AI 추론 절반 비용에 돌리는 법

퓨리오사AI 레니게이드(RNGD) 완전정복:
엔비디아 없이 AI 추론 비용 절반으로 줄이는 법

2026년 1월 양산 시작 · 전력 효율 H100 대비 2.7배 · 한국 최초 글로벌 데이터센터급 NPU 출하

🔥 2026년 1월 양산 개시
⚡ 180W TDP · 512 TFLOPS(FP8)
기업가치 3조원 프리IPO
메타 인수 1조 거절

레니게이드가 지금 화제인 진짜 이유

퓨리오사AI 레니게이드(RNGD)는 단순한 국산 AI 반도체 이상의 의미를 갖습니다. 2026년 1월 28일, 퓨리오사AI는 파운드리 파트너 TSMC로부터 1차 양산분 4,000장을 인도받았다고 공식 발표했습니다. 에이수스가 카드 조립을 맡아 ‘RNGD PCIe 카드’와 ‘NXT RNGD 서버’ 두 가지 제품 형태로 엔터프라이즈 시장에 공급되기 시작했습니다.

화제성을 높인 또 다른 이유는 메타의 인수 제안 거절 사건입니다. 메타는 약 1조 원(7억 달러 규모)에 달하는 인수 제안을 했지만 퓨리오사AI는 이를 거절하고 독자 상장을 택했습니다. 2026년 1월에는 기업가치 2~3조 원 기준으로 7,000억 원 규모의 프리IPO를 추진 중이며, 미래에셋증권·모건스탠리가 공동 주관하고 있습니다. 2027년 IPO(국내 또는 나스닥)가 목표입니다.

기술적으로도 레니게이드는 기존 NPU의 한계를 넘은 새로운 아키텍처 ‘TCP(Tensor Contraction Processor, 텐서 축약 프로세서)’를 채택했습니다. AI 추론 워크로드에서 엔비디아 H100 대비 전력 효율을 2.7배 끌어올린 이 칩이 어떻게 설계됐는지, 그리고 실제로 어떤 상황에서 써야 유리한지 지금부터 낱낱이 분석합니다.

▲ 목차로 돌아가기

TCP 아키텍처란 무엇인가 — GPU와 결정적 차이

GPU의 구조적 한계

엔비디아 GPU가 AI 연산을 처리할 때 사용하는 핵심 연산은 행렬 곱셈(MatMul)입니다. 원래 그래픽 렌더링에 최적화된 구조이기 때문에, 딥러닝에 필요한 텐서 연산을 처리할 때는 데이터를 반드시 행렬 형태로 ‘매핑’한 뒤 처리해야 합니다. 이 과정에서 텐서 자체의 병렬성과 데이터 지역성(data locality)이 상당 부분 낭비됩니다. H100 TDP가 700W에 달하는 이유 중 하나가 바로 이 비효율 때문입니다.

TCP의 원리 — 텐서를 있는 그대로 처리한다

퓨리오사AI의 TCP는 텐서 축약(Tensor Contraction) 자체를 하드웨어의 기본 처리 단위로 삼습니다. 텐서 축약이란 다차원 텐서에서 특정 축(dimension)을 따라 합산해 차원을 줄이는 연산으로, 실제 딥러닝 모델이 가장 많이 수행하는 연산 중 하나입니다. GPU처럼 중간 변환 없이 이 연산을 직접 처리하기 때문에 메모리 접근 횟수가 줄고, 데이터 재사용률이 극적으로 높아집니다.

레니게이드에는 8개의 프로세싱 엘리먼트(PE)가 병렬로 배치되고, ‘페치 네트워크(Fetch Network)’라는 데이터 전달 구조가 각 PE 간 효율적인 데이터 공유를 담당합니다. 또한 고급 컴파일러가 큰 연산 블록을 쪼개고 다시 합치는 최적화를 수행하여, 다양한 규모의 LLM 모델에서도 일관된 고효율을 유지합니다.

💡 핵심 인사이트: TCP 아키텍처는 “GPU는 행렬 곱셈을 잘하고, NPU는 특정 추론만 잘한다”는 기존의 이분법을 깨뜨립니다. 텐서 축약을 기본 단위로 처리함으로써 LLM 추론에서는 GPU보다 높은 전력 효율을, 기존 NPU보다는 넓은 범용성을 동시에 달성한 것이 핵심입니다.

▲ 목차로 돌아가기

RNGD 사양 완전 해부 — 숫자로 보는 성능

레니게이드는 단일 카드(RNGD PCIe)와 서버 완제품(NXT RNGD) 두 가지 폼팩터로 공급됩니다. 각각의 사양을 상세히 살펴보겠습니다.

표 1. RNGD PCIe 카드 vs NXT RNGD 서버 사양 비교
항목 RNGD PCIe 카드 NXT RNGD 서버
폼팩터 PCIe Gen5 x16 카드 4U 랙마운트 서버
RNGD 탑재 수 1장 8장
AI 추론 성능 512 TFLOPS (FP8) 20 PFLOPS (INT8)
TDP 180W 공랭 가능 3kW (시스템 전체)
메모리 48GB HBM3 384GB HBM3 + 1TB DDR5
메모리 대역폭 최대 1.5TB/s
CPU AMD EPYC ×2
네트워크 1G 관리 NIC + 25G 데이터 NIC
랙당 최대 구성 5대 (100 PFLOPS/rack)
카드 단가 $10,000 (약 1,430만 원)

특히 NXT RNGD 서버는 랙당 소비 전력이 3kW에 불과합니다. 엔비디아 DGX H100 서버(RNGD 8장 대응 구성)의 랙 소비 전력이 10kW 이상인 것과 비교하면, 같은 랙 환경에서 최대 3분의 1의 전기료로 유사한 추론 워크로드를 처리할 수 있다는 의미입니다. 소프트웨어는 ‘퓨리오사 SDK’ 및 ‘LLM 런타임’을 통해 모델을 최적화하고 배포할 수 있습니다.

▲ 목차로 돌아가기

엔비디아 H100·L40S와 냉정한 성능 비교

퓨리오사AI가 ISCA 2024 학술 발표에서 공개한 데이터를 기반으로 RNGD와 엔비디아 GPU의 성능을 비교해 보겠습니다. 비교 모델은 라마-2 7B이며, 배치 크기와 시퀀스 길이를 달리하며 측정한 결과입니다.

표 2. RNGD vs 엔비디아 H100 · L40S 성능·전력 비교 (Llama-2 7B 기준)
항목 RNGD (TCP) 엔비디아 L40S 엔비디아 H100
TDP 180W 350W 700W
FP8 연산 성능 512 TFLOPS 362 TFLOPS 989 TFLOPS
처리량 (16 batch) 935 토큰/초 531 토큰/초
처리량 (32 batch) 1,293 토큰/초 2,230 토큰/초
와트당 성능 (16 batch) 6.24 TOPS/W 1.52 TOPS/W
와트당 성능 (32 batch) 8.62 TOPS/W 3.19 TOPS/W
L40S 대비 전력 효율 4.1배 우수 기준
H100 대비 전력 효율 2.7배 우수 기준

숫자만 보면 오해할 수 있는 부분이 있습니다. RNGD의 절대 처리 성능은 H100보다 낮습니다. 32 배치 기준으로 H100이 2,230 토큰/초인 반면 RNGD는 1,293 토큰/초입니다. 그러나 전력 소비를 고려하면 이야기가 완전히 달라집니다. RNGD는 동일한 1와트를 소모해서 H100보다 2.7배 많은 연산을 수행합니다. 즉, AI 학습이 아닌 추론(inference) 워크로드에서 비용 효율이 압도적으로 유리합니다.

⚠️ 주의: RNGD는 AI 모델 학습(training)보다는 완성된 모델을 서비스하는 추론(inference) 환경에 최적화된 제품입니다. GPT-4급 거대 모델 학습이나 초대형 배치 학습에는 여전히 엔비디아 H100 클러스터가 적합합니다.

▲ 목차로 돌아가기

실제 도입 사례 — LG 엑사원부터 OpenAI 120B까지

LG 엑사원 3.5 32B — 실전 추론 성능 검증

LG AI 연구원은 2025년 7월 엑사원 3.5 32B 모델에 RNGD를 적용한 추론 컴퓨팅 시스템을 구현했습니다. 단 4장의 RNGD 카드를 장착한 단일 서버에서 4K 컨텍스트 윈도우 기준 초당 60 토큰, 32K 컨텍스트 윈도우에서도 초당 50 토큰을 안정적으로 처리했습니다. 이 수치는 실제 서비스 환경에서 충분히 쾌적한 응답 속도입니다. LG AI 연구원이 엑사원을 상용 서비스에 적용할 때 비용·전력 효율을 고려해 RNGD를 선택한 것은 단순 애국심이 아닌 냉정한 기술 검증의 결과였습니다.

OpenAI GPT-OSS 120B — 온프레미스 초대형 LLM 구동

퓨리오사AI가 공개한 가장 인상적인 시연은 OpenAI의 GPT-OSS 120B 모델을 단 2장의 RNGD 카드로 구동한 것입니다. 이 모델은 MXFP4 형식을 사용하며, 퓨리오사AI가 하드웨어 파이프라인 레벨에서 이를 직접 지원하도록 구성했습니다. 시연에서 출력 토큰당 5.8ms를 달성했는데, 이는 100B 이상의 대형 LLM도 인터넷 연결 없이 온프레미스 환경에서 RNGD 기반 서버로 무리 없이 서비스할 수 있음을 실증한 것입니다.

💡 편집자 의견: 금융, 의료, 국방 등 데이터를 외부 클라우드에 보낼 수 없는 보안 민감 산업에서 100B급 LLM을 온프레미스로 서비스할 수 있다는 점은 RNGD의 가장 강력한 차별화 포인트라고 생각합니다. 이 시나리오에서 엔비디아 H100 기반 솔루션 대비 전기료와 도입 비용을 대폭 낮출 수 있습니다.

▲ 목차로 돌아가기

퓨리오사AI의 비즈니스 전략과 글로벌 경쟁 구도

시장 전략 — GPU 대체가 아닌 ‘추론 전문 영역’ 선점

퓨리오사AI는 스스로를 “GPU의 대체재”가 아닌 “추론 전용 최적화 솔루션”으로 포지셔닝합니다. 현재 AI 시장에서 GPU는 학습(training)에 집중되는 추세이고, 이미 완성된 모델을 대규모로 서비스하는 추론(inference) 워크로드는 전력 및 비용 효율이 훨씬 중요합니다. 이 추론 시장을 공략하는 것이 퓨리오사AI의 핵심 전략입니다. 백준호 대표는 “RNGD 양산은 글로벌 AI 3강·반도체 2강 도약을 위한 진일보”라고 선언했습니다.

글로벌 경쟁자들

RNGD가 경쟁해야 할 글로벌 AI 가속기는 다음과 같습니다.

  • 1
    Groq LPU — 극저지연 추론에 특화. 배치 처리 능력은 RNGD 대비 제한적. 클라우드 전용 서비스 형태로만 제공.
  • 2
    Tenstorrent Wormhole/Blackhole — 오픈소스 RISC-V 기반. 개발자 커뮤니티 지원 강점. 데이터센터 규모 도입 실적은 RNGD 대비 초기 단계.
  • 3
    Cerebras WSE-3 — 웨이퍼 규모 단일 칩으로 초거대 모델 학습·추론에 특화. 가격대와 설치 요구사항이 매우 높아 대형 기업 외에 접근 어려움.
  • 4
    SambaNova SN40L RDU — 소프트웨어 정의 하드웨어 개념. 다양한 AI 워크로드 지원. 기업용 AI 클라우드 서비스 형태 주력.

이들 경쟁자 중 엔터프라이즈용 실물 서버 형태로 공급 가능하면서 온프레미스 배포를 지원하는 제품은 RNGD가 현재 가장 직접적인 옵션입니다. 2026년 목표 출하량 2만 장을 달성하면 글로벌 하이퍼스케일러와의 계약도 현실화될 전망입니다.

▲ 목차로 돌아가기

레니게이드, 당신의 AI 인프라에 써도 될까?

RNGD가 적합한 상황

다음 상황 중 하나라도 해당된다면 RNGD는 매우 유력한 선택지입니다. 첫째로 전력 비용이 부담스러운 경우입니다. 데이터센터 운영에서 전기료는 장기 비용의 가장 큰 비중을 차지하므로, H100 대비 2.7배 높은 와트당 성능은 수년 후 ROI 관점에서 결정적 차이를 만듭니다. 둘째로 보안 규제로 클라우드 사용이 불가한 경우입니다. 금융, 의료, 공공기관처럼 데이터를 외부로 내보낼 수 없는 환경에서 100B 이상의 LLM을 온프레미스로 서비스하는 시나리오에 RNGD는 거의 유일한 현실적 대안입니다. 셋째로 공랭 환경의 기존 서버 인프라를 활용하고 싶은 경우입니다. 180W TDP의 RNGD PCIe 카드는 수냉 설비 없이 기존 공랭 서버에 그대로 장착할 수 있어 추가 인프라 투자가 최소화됩니다.

RNGD가 부적합한 상황

반면 다음 경우라면 RNGD가 최선의 선택이 아닐 수 있습니다. AI 모델 학습이 주 워크로드인 경우, 최신 모델 학습에는 엔비디아 H100/H200이 여전히 압도적입니다. 또한 CUDA 생태계 의존도가 높은 기존 파이프라인을 그대로 활용해야 한다면, 퓨리오사AI SDK로의 마이그레이션 비용을 감수해야 합니다. RNGD는 프레임워크 지원이나 커뮤니티 생태계 면에서 아직 CUDA에 크게 못 미칩니다.

💡 솔직한 한 마디: 지금 당장 RNGD를 도입하기 위해서는 퓨리오사 SDK에 대한 학습과 기존 파이프라인 수정이 불가피합니다. 그러나 AI 서비스 운영 비용이 점점 중요해지는 2026년 이후 시장에서, 추론 전용 NPU를 일찍 검토해 놓은 기업이 비용 경쟁력에서 한발 앞서갈 것이라고 확신합니다.

▲ 목차로 돌아가기

❓ Q&A 5선

Q1. 퓨리오사AI 레니게이드(RNGD)는 어디서 구매할 수 있나요?

2026년 1월 현재 RNGD는 엔터프라이즈 B2B 채널을 통해 공급됩니다. 퓨리오사AI 공식 사이트(furiosa.ai)에서 도입 문의를 하거나 국내 대형 IT 기업 영업 채널을 통해 구매 및 검증 진행이 가능합니다. 단가는 카드 1장당 약 $10,000(약 1,430만 원)이며, NXT RNGD 서버 완제품 형태로도 구입할 수 있습니다. 일반 소비자용 소매 유통은 아직 없습니다.

Q2. RNGD를 사용하려면 어떤 소프트웨어를 써야 하나요?

퓨리오사AI는 ‘퓨리오사 SDK’와 ‘LLM 런타임’을 자체 제공합니다. HuggingFace 모델 포맷(Transformers)과의 호환성을 지원하며, 노타(Nota)의 ‘넷츠프레소’ 같은 서드파티 AI 모델 최적화 도구와도 연동됩니다. 단, CUDA 기반의 기존 파이프라인은 직접 호환되지 않으며 별도의 마이그레이션이 필요합니다. 퓨리오사AI 측에서 엔지니어링 지원을 함께 제공한다고 밝히고 있습니다.

Q3. 퓨리오사AI 주식을 지금 살 수 있나요?

2026년 3월 현재 퓨리오사AI는 비상장 기업이라 일반 투자자가 주식을 직접 매매하기 어렵습니다. 2026년 1월 기준으로 7,000억 원 규모의 프리IPO를 미래에셋증권·모건스탠리 주관으로 추진하고 있으며, 2027년 IPO(코스피 또는 나스닥)가 목표입니다. 비상장 주식 거래 플랫폼을 통한 장외 거래는 가능하나 유동성 및 리스크가 크므로 주의가 필요합니다.

Q4. RNGD는 엔비디아 H100을 완전히 대체할 수 있나요?

아니요, 완전한 대체는 현재 단계에서 불가합니다. 퓨리오사AI 스스로도 GPU와의 공존을 전략으로 제시하고 있습니다. AI 모델 학습에는 CUDA 생태계와 H100이 여전히 사실상의 표준이며, RNGD는 이미 완성된 모델을 서비스하는 추론(inference) 영역에서 전력·비용 효율이 압도적입니다. 학습은 GPU로, 서비스 추론은 RNGD로 구성하는 하이브리드 전략이 현실적 접근입니다.

Q5. 국내 다른 NPU 기업 리벨리온(아톰)과는 어떻게 다른가요?

리벨리온의 아톰(ATOM)과 퓨리오사AI의 RNGD는 모두 한국 팹리스의 AI 추론용 NPU이지만 아키텍처 방향이 다릅니다. 리벨리온 아톰은 KT 클라우드에 실제 공급 중인 상용 레퍼런스를 보유한 반면, RNGD는 TCP라는 독자적 텐서 처리 아키텍처를 기반으로 더 넓은 LLM 워크로드 범위를 지원하는 것이 특징입니다. 2026년 기준 RNGD가 양산 규모(2만 장 목표)와 글로벌 레퍼런스(LG, 국내 대기업 계열사, OpenAI gpt-oss 시연)에서 앞서 있으며, 두 기업의 경쟁은 한국 AI 반도체 생태계 전반에 긍정적으로 작용하고 있습니다.

▲ 목차로 돌아가기

✍️ 마치며 — 총평

퓨리오사AI 레니게이드(RNGD)는 한국 반도체 역사에서 꽤 의미 있는 이정표입니다. 단순히 “국산 GPU 대항마”라는 타이틀을 넘어, TCP(텐서 축약 프로세서)라는 독자적 아키텍처로 학술 검증까지 마쳤고, 실제 대기업 납품·OpenAI 모델 구동 시연·TSMC 양산이라는 3대 관문을 동시에 통과했습니다.

개인적으로 가장 인상 깊은 부분은 메타의 1조 원 인수 제안을 거절한 결단입니다. 스타트업 생태계에서 이 수준의 제안을 거절하는 것은 극히 드문 일입니다. 퓨리오사AI가 그 제안을 거절하고 독자 기술 상장을 선택한 배경에는, 추론 시장이 충분히 크고 독자 플레이어로도 글로벌 경쟁이 가능하다는 자신감이 있었을 것입니다.

물론 CUDA 생태계의 장벽, 소프트웨어 툴체인 성숙도, 연간 2만 장이라는 양산 목표 달성 여부 등 아직 검증이 필요한 부분도 분명합니다. 그러나 AI 서비스를 실제로 운영하는 기업 입장에서, 전력 비용과 온프레미스 보안이 동시에 중요해지는 2026년 이후 환경이라면 RNGD를 진지하게 검토할 충분한 이유가 있습니다.

2027년 IPO를 앞두고 퓨리오사AI가 글로벌 고객 레퍼런스를 얼마나 빠르게 쌓느냐가 향후 가장 중요한 관전 포인트가 될 것입니다.

※ 본 게시물은 공개된 보도자료, 학술 논문(ISCA 2024), 공식 발표 자료를 바탕으로 작성된 정보 제공 목적의 콘텐츠입니다. 특정 제품 도입이나 투자를 권유하지 않으며, 최신 스펙 및 가격은 퓨리오사AI 공식 채널을 통해 반드시 재확인하시기 바랍니다. 외부 링크는 모두 rel="noopener" 처리되었습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기