arXiv:2603.04379
Apache 2.0
Helios 14B, 6GB VRAM으로 되는 건 아닙니다
“6GB VRAM이면 돌아간다”는 말, 반만 맞습니다. Group Offloading을 켜면 VRAM은 6GB로 줄지만, 속도는 H100의 19.5FPS가 아니라 소비자 GPU 기준 2~3FPS로 떨어집니다. 공식 GitHub에 그대로 나와 있는 내용인데, 한국어 콘텐츠엔 이 부분이 빠져 있었습니다. 오늘은 실제로 뭐가 되고 뭐가 안 되는지 공식 수치로만 얘기합니다.
Helios 14B가 뭔지 먼저 확인합니다
Helios 14B는 베이징대학(PKU), ByteDance, Canva가 공동 개발해 2026년 3월 4일 공개한 영상 생성 AI 모델입니다. arXiv 논문 번호는 2603.04379이고, 라이선스는 Apache 2.0이어서 상업 목적 사용도 가능합니다.
(출처: arXiv:2603.04379, 2026.03.04)
기존 영상 생성 모델과 결정적으로 다른 점은 생성 방식입니다. 대부분의 영상 AI는 영상 전체 프레임을 한꺼번에 처리하는 확산 모델 방식을 씁니다. Helios는 반대입니다. 33프레임 단위로 청크를 나눠 순서대로 생성하는 자기회귀 확산 모델 구조를 씁니다. 소설가가 문장을 한 줄씩 이어 쓰듯, 이전 청크를 조건으로 다음 청크를 예측합니다.
지원하는 작업은 텍스트→영상(T2V), 이미지→영상(I2V), 영상→영상(V2V) 세 가지이고, 실험적 기능으로 생성 중 프롬프트를 바꾸는 인터랙티브 모드도 있습니다. 단, 인터랙티브 모드는 공식 GitHub 주석에 “결과가 항상 기대에 부합하지 않을 수 있음”이라고 명시되어 있습니다. (출처: github.com/PKU-YuanGroup/Helios, 2026.03.24 기준)
14B인데 1.3B보다 빠른 이유
💡 공식 논문과 GitHub의 수치를 같이 보니 이 부분이 보였습니다
14B 파라미터 모델이 1.3B 모델보다 연산 비용이 낮다는 논문 주장 — 압축 수치를 따라가 보면 왜 그런지 계산이 됩니다.
“더 큰 모델이 더 느리다”는 건 상식처럼 느껴지지만, Helios는 정반대입니다. 공식 논문에 이렇게 적혀 있습니다.
“yielding computational costs comparable to — or lower than — those of 1.3B video generative models”
(출처: arXiv:2603.04379)
수치를 따라가면 이렇습니다. 히스토리 컨텍스트를 토큰 기준 8배 압축, 여기에 Pyramid Unified Predictor Corrector(P-UPC) 알고리즘이 샘플링 단계를 다시 2.29배 압축합니다. 두 값을 곱하면 8 × 2.29 = 18.32배 압축입니다. 14B를 18.32로 나누면 약 764M, 그러니까 실제 연산 부하는 1B 이하 모델과 비슷한 수준으로 내려옵니다.
| 모델 | 파라미터 | FPS (H100) | 비고 |
|---|---|---|---|
| Helios-Distilled | 14B | 19.53 | 3 스텝, CFG 없음 |
| SANA Video Long | 2B | 13.24 | — |
| CogVideoX | 13B | 약 3~4 | 표준 확산 방식 |
| Wan 2.1-T2V | 14B | 약 1~2 | Helios 베이스 모델 |
(출처: arXiv:2603.04379, the-decoder.com Helios 리뷰, 2026.03 기준)
한 가지 더. Helios는 Wan 2.1-T2V-14B를 초기 가중치로 쓰고 3단계 학습을 통해 만들어진 모델입니다. (출처: Helios 논문 5.1절, 직접 인용: “We initialize from Wan-2.1-T2V-14B”) 즉 Wan 2.1의 구조를 이어받되, 자기회귀 추론과 증류 단계를 추가해 속도를 끌어올린 것입니다. 베이스 모델을 안다면 Helios의 품질 특성도 어느 정도 예측이 됩니다.
6GB VRAM, 조건 있습니다
⚠️ 많이 오해하는 부분
“VRAM 6GB면 실시간 영상 생성 가능” — 절반만 맞습니다. Group Offloading을 켜야 6GB가 되고, 그때 속도는 19.5FPS가 아닙니다.
공식 GitHub에는 Group Offloading 옵션이 별도 섹션으로 정리되어 있습니다. 핵심은 이렇습니다.
- Group Offloading 미적용 시: RTX 4090(24GB) 기준 VRAM 풀로 사용
- Group Offloading 적용 시(
--enable_low_vram_mode --group_offloading_type leaf_level): 약 6GB VRAM으로 동작 - 단, VRAM을 아끼는 대신 CPU↔GPU 데이터 이동이 반복되어 속도 크게 저하
소비자 GPU에서의 실측치는 bonega.ai 분석 기준 2~3FPS입니다. (출처: bonega.ai/ko/blog/helios-14b-real-time-ai-video-consumer-hardware-2026, 2026.03) RTX 4060 Ti에서 60초짜리 영상을 만들면 약 10분이 걸린다는 계산입니다. H100의 19.5FPS와 비교하면 약 7~10배 느립니다.
GPU별 실사용 예상 속도 (추정)
| GPU | VRAM | 예상 FPS | 60초 영상 생성 시간 |
|---|---|---|---|
| H100 | 80GB | 19.5 | 약 1~2분 |
| Ascend NPU | — | 약 10 | 약 2~3분 |
| RTX 4090 (풀 VRAM) | 24GB | 약 5~8 (추정) | 약 3~5분 (추정) |
| RTX 4060 Ti / 3060 12GB (오프로딩) | ~6GB 사용 | 2~3 | 약 8~15분 |
RTX 4090 이하는 공식 미측정 — bonega.ai 분석 및 Reddit 커뮤니티 추정치 기준. “약”은 추정값. (출처: bonega.ai, github.com/PKU-YuanGroup/Helios, 2026.03)
Reddit StableDiffusion 커뮤니티에서도 비슷한 이야기가 나왔습니다. “H100에서만 실시간이지 소비자 GPU 기준으로 읽어야 한다”는 댓글이 upvote 10 이상을 받았고, Ascend NPU에서 10FPS가 나오는 걸 보면 RTX 4090에서도 비슷하거나 낮을 수 있다는 의견도 있었습니다. 공식에서 별도 수치를 밝히지 않았습니다.
소리 없고 해상도 384×640 — 놓치면 안 되는 한계
💡 논문이 말하지 않은 부분 — 실제 사용 흐름에서 보이는 차이입니다
VBench 점수는 높지만, 최종 납품이 필요한 작업에 쓰기엔 두 가지 구조적 한계가 있습니다. 소리 없음과 최대 해상도 제한입니다.
① 소리가 없습니다
Helios는 영상만 만듭니다. 오디오 생성 기능이 없습니다. Reddit 댓글에서도 “소리가 없는 게 무슨 의미냐”는 질문에, 다른 사용자가 “Wan 2.2 기반 모델 전체가 아직 ‘무성 시대’”라고 정리했습니다. 공식 GitHub에도 오디오 지원 계획을 암시하는 언급만 있고 출시 일정은 공개되지 않았습니다. 유튜브 숏츠나 SNS용 BGM 작업은 별도로 해야 합니다.
② 최대 해상도가 384×640px입니다
공식 데모와 추론 스크립트 기본값이 384×640입니다. 720p(1280×720)나 1080p에 직접 대응하지 않습니다. the-decoder.com의 독립 리뷰에서도 “flicker artifacts at segment transitions” — 청크 경계에서 깜빡임 현상이 보인다고 했습니다. (출처: the-decoder.com Helios 분석, 2026.03) 브로드캐스트 납품이나 광고 영상 최종 결과물로 쓰기엔 업스케일링이 필요합니다.
단 커뮤니티에서는 이미 4K 생성 튜토리얼이 나왔습니다. 공식 GitHub 2026.03.24 업데이트 노트에 “community-made YouTube tutorial for Helios — covers installation on a consumer-grade PC and supports 4K video generation”이라고 명시되어 있습니다. 공식 지원이 아닌 커뮤니티 방식이고, 안정성은 공식 미보장입니다.
③ I2V·V2V는 T2V보다 품질이 낮습니다
공식 GitHub 모델 다운로드 섹션에 이 문장이 있습니다: “since training is based on Text-to-Video, these two functions may be slightly inferior to Text-to-Video.” 이미지→영상, 영상→영상 작업 결과물이 텍스트→영상보다 살짝 열위라는 뜻입니다. 첫 청크가 정적으로 보이면 is_skip_first_chunk 파라미터를 켜거나 noise sigma 값을 조정하라고 공식 문서에 나옵니다.
클라우드 요금과 비교하면 어떻게 달라지냐
💡 5초짜리와 60초짜리 — VRAM 사용량이 같다는 게 핵심입니다
클라우드 API는 영상 길이가 길수록 요금이 오르는 구조입니다. Helios의 자기회귀 방식은 60초짜리도 5초짜리와 동일한 메모리를 씁니다. 이 차이가 요금 계산에서 어떻게 나타나는지 봅니다.
확산 모델 기반 클라우드 서비스(Sora, Veo 등)는 1분짜리 영상을 만들 때 1분 분량의 모든 프레임을 메모리에 올려 처리합니다. 길이에 비례해 자원이 늘고, 요금도 늘어납니다. 클라우드 기준으로 60초 영상 한 편에 약 $2~8 선입니다. (출처: bonega.ai/ko/blog/helios-14b-real-time-ai-video-consumer-hardware-2026, 2026.03)
Helios는 청크 단위로 순서대로 처리하기 때문에 피크 메모리가 클립 길이와 무관하게 일정합니다. 5초짜리와 60초짜리 모두 Group Offloading 기준 약 6GB VRAM을 씁니다. 전기료로 환산하면 편당 약 $0.01 수준입니다.
| 구분 | 클라우드 API | Helios 로컬 |
|---|---|---|
| 60초 영상 1편 비용 | 약 $2~8 | 약 $0.01 |
| 월 200편 기준 연간 비용 | 약 $9,600 | 약 $24 |
| GPU 초기 투자 비용 | 없음 | RTX 4060 Ti 약 $400 |
| 데이터 프라이버시 | 제3자 서버 전송 | 완전 로컬 |
| 최대 해상도 | 1080p 이상 | 384×640 (공식 기본) |
| 오디오 포함 | 일부 지원 | ❌ 없음 |
(출처: bonega.ai 비용 분석, arXiv:2603.04379, github.com/PKU-YuanGroup/Helios)
RTX 4060 Ti 기준 GPU 구매 비용 $400은 클라우드 요금 $2~4 기준으로 100~200회 생성 후 회수됩니다. 스토리보드, 클라이언트 프리뷰, 소셜 미디어 초안처럼 최종 납품 품질이 필요 없는 작업에서 경제성이 뚜렷합니다. 반대로 브로드캐스트용 최종 결과물이 필요한 경우, 해상도와 오디오 한계 때문에 클라우드 서비스를 병행해야 하는 구조입니다.
실제 설치 흐름, 이렇게 시작합니다
설치 진입 장벽은 낮은 편입니다. NVIDIA GPU 6GB VRAM 이상, CUDA 11.8+ 환경이 기본 조건입니다. 공식 GitHub에 step-by-step 스크립트가 있고, 3가지 모델 변형을 선택해서 받을 수 있습니다.
🧩 3가지 모델 변형 — 뭘 받을지 먼저 결정해야 합니다
Helios-Base
가장 높은 품질. 50 스텝. 표준 CFG. 속도는 가장 느림.
Helios-Mid
중간 체크포인트. 품질과 속도 사이 트레이드오프.
Helios-Distilled ⭐
3 스텝. CFG 없음. 가장 빠름. 19.5FPS 주인공.
6GB VRAM 환경에서 실행하려면 --enable_low_vram_mode와 --group_offloading_type leaf_level 플래그를 반드시 추가해야 합니다. 빠진 채 실행하면 OOM(Out of Memory) 오류가 납니다. 공식 추론 스크립트(scripts/inference/)에는 각 모델·작업별 예시 파일이 분리되어 있어서 그대로 따라가면 됩니다.
프레임 수 설정은 33의 배수로 맞춰야 합니다. 공식 문서에 “non-multiple value will be automatically rounded up to the nearest multiple of 33″이라고 나와 있습니다. 24FPS 기준으로 60초를 만들려면 num_frames를 1449 이상(실제 조정값 1452 = 33×44)으로 설정합니다.
⏱ 프레임 수 → 영상 길이 환산 (24FPS 기준)
| num_frames | 조정 후 실제 프레임 | 24FPS 기준 길이 |
|---|---|---|
| 1449 | 1452 | 약 60초 |
| 720 | 726 | 약 30초 |
| 240 | 264 | 약 11초 |
| 129 | 132 | 약 5.5초 |
(출처: github.com/PKU-YuanGroup/Helios Inference 섹션)
Q&A 5가지
마치며
Helios 14B는 “14B 모델이 1.3B보다 연산 비용이 낮다”는, 처음 들으면 납득이 안 되는 주장을 실제 수치로 증명한 모델입니다. 18.32배 압축 덕분에 소비자 GPU에서도 동작하고, Apache 2.0이라 상업 활용도 열려 있습니다.
솔직히 말하면, 지금 당장 실무 납품용으로 쓰기엔 384×640 해상도와 소리 없음이 발목을 잡습니다. 브로드캐스트나 광고 최종 결과물에 그대로 내기엔 무리입니다. 그런데 스토리보드, 레퍼런스 영상, 클라이언트 프리뷰처럼 초안 품질로 충분한 작업에선 이야기가 다릅니다. 클라우드 대비 100~200배 저렴한 단가에, 길이 제한 없이, 데이터 외부 전송 없이 쓸 수 있습니다.
RTX 4060 Ti에서 2~3FPS, 60초 영상 하나에 10분 정도라는 속도는 “실시간”이 아니지만, 6GB VRAM으로 14B 모델이 돌아간다는 것 자체가 1년 전이라면 상상하기 어려웠던 일입니다. ComfyUI 지원, 오디오 추가, 해상도 스케일링이 커뮤니티에서 빠르게 채워지고 있는 중이라, 6개월 후에는 지금과 완전히 다른 그림일 수 있습니다.
📚 본 포스팅 참고 자료
- Helios 공식 논문 — arxiv.org/abs/2603.04379
- PKU-YuanGroup 공식 GitHub — github.com/PKU-YuanGroup/Helios
- HuggingFace 모델 허브 — huggingface.co/spaces/BestWishYsh/Helios-14B-RealTime
- bonega.ai 비용 분석 (한국어) — bonega.ai/ko/blog/helios-14b-real-time-ai-video-consumer-hardware-2026
- The Decoder 독립 리뷰 — the-decoder.com Helios 분석 (2026.03)
본 포스팅 작성 이후 Helios 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 2026년 3월 26일 기준 공식 문서 및 공개 자료를 바탕으로 작성되었습니다. 소비자 GPU 속도 추정치는 공식 미측정 항목으로, 커뮤니티 및 분석 자료 기반 추정입니다.











댓글 남기기