NVIDIA DGX Spark, 써보면 달라지는 3가지 수치

Published on

in

NVIDIA DGX Spark, 써보면 달라지는 3가지 수치

2026.03.21 기준 / GB10 Superchip 기준

NVIDIA DGX Spark, 써보면 달라지는 3가지 수치

광고에선 “1 PFLOP 블랙웰 슈퍼컴퓨터”라고 합니다. 그런데 실제로 측정해보면 1 PFLOP이 안 나오고, “블랙웰”이라는 이름을 쓰지만 데이터센터 블랙웰과 명령어 체계가 다릅니다. GTC 2026에서 발표된 신규 라인업까지 놓고 보면 DGX Spark의 포지션이 더 명확해집니다.

💾 128GB 통합 메모리
⚡ 공식 1 PFLOP / 실측 480 TFLOPS
🏷️ $3,999 (약 580만 원)
📅 2025.10.15 출시

1 PFLOP인데 왜 480 TFLOPS가 나올까요

NVIDIA DGX Spark의 공식 스펙은 “sparse FP4 기준 1 PetaFLOP”입니다. 그런데 실제로 초기 사용자들이 측정해보니 약 480 TFLOPS 수준이 나왔습니다. 광고 수치의 절반도 안 되는 결과여서 당시 LocalLLaMA 커뮤니티에서 논란이 됐습니다.

이유는 두 가지입니다. 첫째, 1 PFLOP 수치는 희소(sparse) FP4 행렬 곱셈에서만 달성 가능한 이론치입니다. 실제 AI 워크로드는 밀집(dense) 연산이 섞이고, 양자화 모델을 쓰더라도 커널이 최적화되지 않으면 이 수치에 근접하기 어렵습니다. 둘째, 출시 초기에는 드라이버와 펌웨어 최적화가 덜 된 상태였습니다. NVIDIA와 커뮤니티가 빠르게 업데이트를 내면서 llama.cpp 기준으로 최대 40% 성능 향상이 확인됐습니다. (출처: research4lab.tistory.com 분석 보고서, 2025.10.30)

💡 공식 발표 수치와 실측 수치를 같이 놓고 보니 이런 차이가 보였습니다.
1 PFLOP은 “이론 최대치”고, 대부분의 일반 LLM 추론에서는 절반 수준이 현실적입니다. 이후 드라이버 업데이트로 격차가 좁혀지고 있는 건 맞지만, 광고 수치를 그대로 기대하고 샀다면 실망할 수 있는 부분입니다.

벤치마크 수치를 하나 더 보면, GPT-OSS-120B(FP4) 기준 프리필(입력 처리) 속도는 1,821 tokens/sec로 매우 빠릅니다. 긴 문서를 한 번에 집어넣고 처리하는 RAG 작업이라면 이 수치가 체감됩니다. (출처: research4lab.tistory.com, 2025.10.30)

▲ 목차로 돌아가기

“블랙웰”인데 블랙웰 커널이 안 돌아가는 이유

이 부분이 가장 놀라웠습니다. DGX Spark의 GB10 칩은 NVIDIA가 공식적으로 “Grace Blackwell Superchip”이라고 부릅니다. nvidia-smi를 치면 아키텍처 란에 ‘Blackwell’이라고 나옵니다. 그런데 FlashMLA, FlashAttention 4 같은 “Blackwell 지원” 커널이 실제로는 동작하지 않습니다.

원인은 CUDA compute capability 체계에 있습니다. 블랙웰이라는 이름 안에 실제로 두 종류의 칩이 존재합니다. 데이터센터용은 SM100(compute capability 10.0), DGX Spark와 RTX 5090 같은 컨슈머·엣지용은 SM12x(compute capability 12.0/12.1)입니다. 두 칩은 텐서 코어를 구동하는 명령어 체계가 완전히 다릅니다.

구분 데이터센터 블랙웰 DGX Spark (GB10)
대표 제품 B100, B200, GB200 DGX Spark, RTX 5090
Compute Capability SM100 (10.0) SM121 (12.1)
텐서 코어 명령어 tcgen05 (전용) mma.sync 확장 (Ampere 방식)
전용 텐서 메모리(TMEM) SM당 256KB 탑재 없음
FlashAttention 4 지원 지원 미지원 (2026.02 기준)
WGMMA 명령어 지원 미지원

(출처: backend.ai 공식 기술 블로그 “DGX Spark는 정말 블랙웰 기반일까요?”, 2026.02.19)

실제로 래블업 엔지니어링팀이 DGX Spark 위에 GLM-5 추론을 올려보다가 이 문제를 발견했습니다. FlashMLA, FlashAttention 4 모두 “SM100용 또는 SM90용” 커널만 있어서 SM12x인 DGX Spark에서는 컴파일 단계부터 에러가 납니다. (출처: backend.ai 기술 블로그, 2026.02.19)

💡 같은 “블랙웰”이라는 이름을 쓰더라도 ISA(명령어 체계) 수준에서 데이터센터용과 컨슈머용이 완전히 다릅니다. CUDA 커널을 직접 작성하거나, FlashAttention 같은 최적화 커널에 의존하는 개발자라면 반드시 SM12x용 코드를 별도로 작성해야 합니다.

다만 상황이 개선되고 있는 것도 사실입니다. Triton, vLLM, SGLang 생태계에서 SM12x 지원 이슈가 빠르게 패치되고 있고, NVIDIA는 SM12x에 최적화된 커널을 지속 출시 중입니다. 소프트웨어가 따라잡으면 이 제약의 체감 범위는 좁아질 가능성이 높습니다.

▲ 목차로 돌아가기

메모리 128GB가 주는 진짜 이득은 따로 있습니다

DGX Spark의 진짜 경쟁력은 토큰 생성 속도가 아닙니다. Llama-3 70B 기준 디코드 속도는 약 38 tokens/sec로 Mac Studio M4 Max보다 느립니다. 그런데 DGX Spark가 해결하는 문제는 다른 지점에 있습니다.

기존 개인용 GPU는 VRAM이 최대 24~48GB 수준입니다. 70B 파라미터 이상 모델은 통째로 메모리에 올리는 것 자체가 불가능했습니다. DGX Spark는 CPU와 GPU가 128GB 통합 메모리를 공유하기 때문에, 200B 파라미터 모델까지 로컬에서 추론이 가능하고, 70B 이하 모델은 파인튜닝(fine-tuning)까지 됩니다. 단일 데스크톱 장비에서는 이전에 없던 환경입니다. (출처: NVIDIA 공식 뉴스룸, 2025.10.15)

💡 토큰 생성 속도 비교에서 지더라도, “200B 모델을 메모리에 올릴 수 있는 단일 데스크톱”이라는 조건 자체가 경쟁이 안 됩니다. 속도 대신 규모를 산 제품입니다.

DGX Spark 2대를 NVLink-C2C로 연결하면 256GB 메모리, 약 4,050억 파라미터(405B) 모델까지 처리 가능합니다. 이는 GPT-3 수준의 모델 크기입니다. 단순 추론뿐 아니라 RAG 파이프라인에서 대형 컨텍스트 윈도우를 빠르게 처리하는 용도로는 프리필 속도 1,821 tokens/sec가 체감됩니다. (출처: research4lab.tistory.com, 2025.10.30)

▲ 목차로 돌아가기

경쟁 제품과 직접 수치로 비교했습니다

같은 128GB 메모리 구성 기준으로 주요 대안을 수치로 놓고 비교했습니다. 가격은 모두 2025년 말~2026년 초 기준입니다.

항목 DGX Spark Mac Studio M4 Max
(128GB)
AMD Strix Halo
(128GB 구성)
가격 (USD) 약 $3,999 약 $4,699 약 $2,348
메모리 대역폭 273 GB/s 약 526 GB/s 약 212 GB/s
AI 컴퓨팅 성능 1 PFLOP (FP4) 약 38 TOPS 약 59 TFLOPS
LLM 생성 속도
(120B 모델 기준)
약 50 t/s 상대적으로 빠름 비슷
CUDA 생태계 완전 지원 Metal (제한적) ROCm (미성숙)
최대 전력 소비 약 240W 약 140W 낮음 (미공개)

(출처: research4lab.tistory.com 비교 분석 보고서, 2025.10.30 / 가격은 해당 시점 기준)

수치만 보면 Mac Studio M4 Max가 메모리 대역폭에서 앞서고, AMD 구성이 가격에서 유리합니다. 그러나 AI 연구·개발 세계에서 CUDA의 지배력은 절대적입니다. PyTorch, Triton, NCCL 등 AI 연구의 표준 도구들이 CUDA 위에서 가장 잘 최적화돼 있고, Metal이나 ROCm은 아직 그 격차를 따라잡지 못했습니다. 생태계 접근성 하나만으로도 DGX Spark가 연구 목적에서는 유리한 구조입니다.

클라우드 비용과도 비교해볼 수 있습니다. AWS A100 80GB 인스턴스는 시간당 약 $1.50~$6.00가 소요됩니다. 주 20시간 사용하는 연구원이라면 월 120~480달러, 1년이면 1,440~5,760달러입니다. DGX Spark의 $3,999는 반복적인 개발 사이클에서 3~6개월이면 회수됩니다. (출처: research4lab.tistory.com, 2025.10.30)

▲ 목차로 돌아가기

GTC 2026에서 DGX Station이 나온 이후 달라진 것

2026년 3월 16~19일 GTC 2026에서 NVIDIA는 DGX Spark와 함께 DGX Station을 공식 발표했습니다. DGX Station은 GB300 Grace Blackwell Ultra 기반으로 72코어 CPU와 블랙웰 GPU를 NVLink-C2C로 연결한 데스크탑 시스템입니다. 최대 20 PetaFLOPS 연산 성능과 748GB 통합 메모리를 갖췄습니다. 1조(1T) 파라미터 모델 실행도 가능합니다. (출처: newstap.co.kr, 2026.03.18)

DGX Station과 DGX Spark를 나란히 놓으면 Spark의 포지션이 명확해집니다. Spark는 개인 연구자나 소규모 팀이 70B~200B 모델 파인튜닝과 프로토타이핑을 로컬에서 진행하는 진입점이고, Station은 1T 파라미터급 모델을 데스크 환경에서 운영하는 팀·기업용 장비입니다. NVIDIA는 GTC 2026에서 두 제품을 모두 NemoClaw 오픈소스 에이전트 스택과 연계해, Spark에서 개발 → Station으로 확장 → 데이터센터로 스케일업하는 일관된 경로를 공식화했습니다.

💡 GTC 2026 발표로 Spark의 역할이 더 선명해졌습니다. “최고 성능” 장비가 아니라 “CUDA 생태계 진입점”으로 설계된 제품이고, NVIDIA가 이 구조를 공식 로드맵으로 굳혔습니다.

또한 GTC 2026에서는 DGX Spark에서 최신 오픈소스 모델인 Nemotron 3(120B, MoE 구조)와 Llama 4를 최적화해서 돌릴 수 있는 NIM 마이크로서비스 업데이트가 함께 발표됐습니다. 소프트웨어 생태계 지원이 빠르게 넓어지고 있다는 신호입니다. (출처: newstap.co.kr, 2026.03.18)

▲ 목차로 돌아가기

이 기기가 맞는 사람과 아닌 사람

솔직히 말하면, DGX Spark는 모든 사람한테 맞는 제품이 아닙니다. CUDA 생태계 밖에서 일하거나, 빠른 토큰 생성 속도가 필요한 실시간 챗봇 개발이 주된 목적이라면 Mac Studio M4 Max나 AMD Strix Halo 구성이 가격 대비 더 합리적입니다.

반면 이런 경우라면 DGX Spark가 현실적인 선택입니다. PyTorch, CUDA 기반 논문 코드를 그대로 데스크탑에서 재현하고 싶은 연구자. 70B 이상 모델에 도메인 특화 데이터로 LoRA/QLoRA 파인튜닝을 반복해야 하는 개발자. 환자 데이터나 기업 기밀을 클라우드에 올릴 수 없어 온프레미스 AI가 필요한 의료·법률·금융 분야 팀. 에이전틱 AI 파이프라인을 로컬에서 빠르게 프로토타이핑하고 이후 DGX Station이나 데이터센터로 확장할 계획이 있는 경우.

개인적으로 아쉬운 부분을 하나 꼽으면, Windows 미지원입니다. DGX OS는 Ubuntu 24.04 기반이고, Windows는 공식 지원하지 않습니다. 리눅스에 익숙한 개발자에겐 문제가 안 되지만, 그 외에는 진입 장벽이 생깁니다.

▲ 목차로 돌아가기

Q&A

Q. DGX Spark는 한국에서 살 수 있나요?

NVIDIA 코리아 공식 채널 및 국내 파트너사를 통해 구매 가능합니다. 리더스시스템즈 등 국내 공식 판매처에서 취급하고 있으며, 가격은 환율에 따라 달라집니다. 2026년 3월 기준 약 580만 원대에 형성돼 있습니다.

Q. ChatGPT나 Claude 같은 서비스와 어떻게 다른가요?

DGX Spark는 AI 모델을 클라우드가 아닌 본인 장비에서 직접 실행하는 인프라입니다. 인터넷 없이도 동작하고, 데이터가 외부로 나가지 않으며, 모델을 직접 파인튜닝할 수 있습니다. ChatGPT·Claude는 소비자 서비스이고, DGX Spark는 AI 모델 자체를 개발·운영하는 개발자·연구자용 장비입니다.

Q. 1 PFLOP이 실제로 안 나온다면 사기 아닌가요?

1 PFLOP은 희소(sparse) FP4 행렬 곱셈의 이론 최대치입니다. 실제 AI 워크로드는 다양한 연산이 섞여 이 수치에 도달하기 어렵습니다. 이런 방식으로 성능을 표기하는 것은 GPU 업계의 관행이기도 합니다. 다만 소비자 입장에서 오해하기 쉬운 표기 방식인 것도 사실입니다. 이후 드라이버 최적화로 실측 수치는 계속 개선되고 있습니다.

Q. DGX Spark와 DGX Station 중 어떤 걸 선택해야 하나요?

Spark는 70B~200B 모델 파인튜닝·프로토타이핑을 로컬에서 진행하는 개인 연구자나 소규모 팀에 맞습니다. Station은 1T 파라미터 모델 실행이나 팀 공유형 컴퓨팅 자원이 필요한 기업·연구소급 환경에 맞습니다. 가격 차이도 상당할 것으로 예상되므로, 용도와 예산을 먼저 확인하는 게 맞습니다. DGX Station의 공식 가격은 이 포스팅 작성 시점 기준 아직 공개되지 않았습니다.

Q. SM12x 커널 호환성 문제는 언제 해결되나요?

NVIDIA가 공식 일정을 발표하지 않은 부분입니다. 현재 vLLM, SGLang, Triton 등 주요 생태계가 SM12x 지원 패치를 빠르게 내고 있어 상황은 개선 중입니다. FlashAttention 4의 SM12x 백엔드는 별도로 개발이 필요한 상태이며, 커뮤니티와 NVIDIA 양측에서 작업 중입니다. (출처: backend.ai 기술 블로그, 2026.02.19)

▲ 목차로 돌아가기

마치며

NVIDIA DGX Spark는 “1 PFLOP 블랙웰 슈퍼컴퓨터”라는 마케팅 문구 뒤에 세 가지 수치가 숨어 있습니다. 실측은 480 TFLOPS 수준이고, “블랙웰”이라는 이름이지만 데이터센터 블랙웰과 ISA가 다르고, 메모리 대역폭은 Mac Studio M4 Max의 절반 수준입니다.

그러나 이 제품이 처음부터 설계한 목적, 즉 “200B 파라미터 모델을 책상 위에서 다루는 개발 플랫폼”이라는 역할은 제대로 합니다. CUDA 생태계 안에서 대형 모델을 로컬에서 파인튜닝하고, 클라우드 비용을 아끼고, 데이터 보안이 필요한 환경에서 쓰는 용도라면 지금 기준으로도 단일 데스크톱 장비 중에서 대안이 없습니다.

GTC 2026에서 DGX Station이 나오면서 Spark의 진입점 포지션이 더 명확해졌고, NemoClaw 에이전트 스택 연계로 로컬 AI 개발 → 데이터센터 확장이라는 경로도 공식화됐습니다. 스펙을 구매하는 게 아니라 생태계와 워크플로우를 구매하는 제품입니다.

본 포스팅 참고 자료

  1. NVIDIA 공식 뉴스룸 — DGX Spark 출시 발표 (2025.10.15)
  2. NVIDIA Developer Blog — DGX Spark 성능 상세 (2025.10.31)
  3. backend.ai 기술 블로그 — DGX Spark는 정말 블랙웰 기반일까요? (2026.02.19)
  4. research4lab — DGX Spark 성능 벤치마크 및 비교 분석 (2025.10.30)
  5. 뉴스탭 — GTC 2026 DGX Spark·Station 발표 (2026.03.18)

※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 가격 및 성능 수치는 2026년 3월 21일 기준이며, 이후 드라이버 업데이트·제품 변경으로 달라질 수 있습니다. 구매 전 NVIDIA 공식 사이트에서 최신 정보를 확인하시기 바랍니다.


댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기