HiDream I1, 17B인데 4090에서 안 됩니다

Published on

2026년 3월 21일

2025.04.07 오픈소스 공개
HiDream-I1 기준
MIT 라이선스

HiDream I1, 17B인데 4090에서 안 됩니다

GenEval 벤치마크에서 Flux.1-dev를 앞질렀습니다. 벤치마크 수치만 보면 최고입니다. 그런데 막상 로컬에서 돌리려고 하면 RTX 4090 24GB로도 Full 버전은 실행이 막힙니다. 수치가 좋다는 것과 내 PC에서 된다는 건 완전히 다른 이야기입니다.

0.83

GenEval 전체

33.82

HPS v2.1

17B

파라미터

48GB+

Full VRAM

HiDream I1이 뭔지, 한 줄로

HiDream I1은 중국 AI 스타트업 HiDream.ai(智象未来)가 2025년 4월 7일 MIT 라이선스로 공개한 텍스트-이미지 생성 모델입니다. 파라미터 수는 17B(170억 개)로, 같은 시기 가장 널리 쓰이던 Flux.1-dev(약 12B)보다 크지만 생성 속도는 오히려 비슷하게 설계됐습니다. 핵심은 아키텍처에 있습니다.

일반적인 Diffusion Transformer(DiT)와 달리, HiDream I1은 Sparse DiT + Mixture of Experts(MoE) 구조를 씁니다. 전체 파라미터 17B가 모두 한 번에 작동하는 게 아니라, 입력에 따라 필요한 “전문가 블록”만 활성화됩니다. 덕분에 복잡한 프롬프트에서 여러 객체·색상·위치를 동시에 처리하는 정밀도가 높습니다.

💡 공식 논문(arXiv:2505.22705)과 GitHub 코드를 같이 놓고 보니, MoE가 연산 효율을 높여주지만 모델 파일 자체의 크기(35GB)는 그대로라서 VRAM 부담은 줄지 않습니다.

또 하나의 특징은 텍스트 인코더를 4개 씁니다. OpenCLIP ViT-bigG, OpenAI CLIP ViT-L, T5-v1.1-xxl, 그리고 Llama-3.1-8B-Instruct입니다. 이 구성이 프롬프트 이해력을 높이는 핵심이기도 하지만, 동시에 로컬 설치의 복잡도를 끌어올리는 원인이기도 합니다.

▲ 목차로 돌아가기

Full vs Dev vs Fast — 3가지 버전의 차이

HiDream I1은 단일 모델이 아닙니다. 동일한 베이스에서 용도별로 나뉜 3가지 버전이 있고, 선택을 잘못하면 시간과 VRAM을 낭비합니다.

버전	추론 스텝	guidance_scale	최소 VRAM(fp8)	특징
Full	50	5.0	약 40GB+	최고 품질, 네거티브 프롬프트 지원
Dev	28	0.0	약 24GB(fp8)	증류 모델, 균형형
Fast	16	0.0	약 20GB(fp8)	속도 최우선, 24GB 이하 권장

Dev와 Fast는 증류(distillation) 모델입니다. Full을 학습 목표로 삼아 더 적은 스텝으로 비슷한 결과를 내도록 훈련됐습니다. 중요한 건 Dev와 Fast에서는 guidance_scale을 반드시 0.0으로 설정해야 합니다. Full처럼 5.0으로 두면 결과물이 이상하게 나옵니다. 공식 GitHub에 그대로 적혀 있지만 그냥 지나치기 쉬운 부분입니다.

실사용자들의 비교(Reddit r/StableDiffusion, 2025.04~07) 기준으로는 오히려 Dev가 Full보다 더 자연스러운 결과물을 낸다는 평도 있습니다. Full이 수치상 최고이지만 실제 선호도에서 Dev에 밀리는 경우가 나오는 건 흥미로운 지점입니다.

▲ 목차로 돌아가기

벤치마크 수치, 직접 읽어봤습니다

HiDream I1 공식 GitHub 레포와 arXiv 논문(2505.22705)에는 세 가지 벤치마크 결과가 공개돼 있습니다.

GenEval — 프롬프트 지시 정확도

GenEval은 “빨간 공 두 개와 파란 상자 하나”처럼 객체 수, 색상, 위치 지시를 이미지에 얼마나 정확히 반영했는지를 측정합니다. HiDream I1의 전체 점수는 0.83으로 Flux.1-dev(0.66), DALL-E 3(0.67)를 확연히 앞섭니다. (출처: HiDream-ai/HiDream-I1 GitHub 공식 레포, 2025.04.07)

특히 “Single Object” 항목은 1.00(만점)이고, “Two Objects”도 0.98입니다. 복수 객체를 동시에 처리하는 능력이 월등히 높습니다. 기존 블로그가 “프롬프트 따라가기가 좋다”고만 적는데, 수치로 보면 Flux.1-dev보다 25.8% 높습니다.

HPSv2.1 — 사람이 선호하는 이미지 품질

HPSv2.1은 사람들이 “더 예쁘다”고 느끼는 쪽을 측정하는 인간 선호도 기반 점수입니다. HiDream I1의 평균은 33.82로 Flux.1-dev(32.47), Midjourney V6(30.29)를 앞섭니다. (출처: 동일 레포)

💡 벤치마크와 실사용 선호도를 같이 보면 이런 패턴이 보입니다 — 수치는 Full이 높지만, Reddit 실사용자 비교에서는 Dev가 더 자연스럽다는 평이 반복됩니다. 증류 과정에서 의도치 않게 “더 현실적인” 결과물이 나오는 현상으로 보입니다.

DPG-Bench — 복잡한 텍스트 설명 반영

DPG-Bench는 길고 복잡한 묘사를 이미지로 얼마나 잘 구현하는지를 봅니다. HiDream I1의 전체 점수는 85.89로 Flux.1-dev(83.79)보다 높습니다. 단, Global 항목(76.44)은 Flux.1-dev(85.80)보다 낮습니다. 세부 묘사에는 강하지만 이미지 전체의 큰 맥락 파악에는 아직 약점이 있습니다.

▲ 목차로 돌아가기

VRAM 현실 — 24GB로도 Full은 안 됩니다

HiDream I1 Full의 모델 파일 크기는 약 35GB입니다. fp16 정밀도로 로드하면 텍스트 인코더까지 포함해 40~48GB VRAM이 필요합니다. RTX 4090(24GB)은 물론, V100 32GB로도 모자랍니다. (출처: instasd.com HiDream 벤치마크 리포트, 2025.04.22 / GitHub Issue #7, 2025.04.08)

⚠️ Full(fp16/bf16) — RTX 4090 실행 불가

InstaSD 벤치마크 표에서 A5000(24GB), RTX 4090(24GB) 란에 “X”가 표기됩니다. 메모리 부족으로 OOM이 발생합니다.

fp8 양자화 버전을 쓰면 이야기가 달라집니다. Full-fp8은 RTX 4090에서 74초, Dev-fp8은 20초, Fast-fp8은 6.8초로 작동합니다. 24GB GPU를 가진 경우 fp8이 사실상 유일한 선택지입니다.

RTX 4090(24GB) 기준 HiDream I1 실행 가능 여부
모델 버전	fp16/bf16	fp8	생성 시간(fp8)
Full (50스텝)	❌ 불가	✅ 가능	약 74초
Dev (28스텝)	❌ 불가	✅ 가능	약 20초
Fast (16스텝)	❌ 불가	✅ 가능	약 6.8초

(출처: instasd.com HiDream Performance Benchmarks in ComfyUI, 2025.04.22)

MoE 덕분에 연산 효율은 높이면서도, 모델 가중치 파일 자체는 그대로라 VRAM 요구량은 줄지 않습니다. 연산량과 메모리 점유량은 다른 이야기입니다.

▲ 목차로 돌아가기

Llama 라이선스 문제, 아무도 안 알려줍니다

HiDream I1 자체는 MIT 라이선스입니다. 상업적 이용도 자유롭고, 코드와 모델 가중치를 마음대로 수정·배포할 수 있습니다. 그런데 여기서 놓치기 쉬운 게 있습니다.

HiDream I1은 텍스트 인코더 중 하나로 Meta Llama-3.1-8B-Instruct를 씁니다. 이 모델은 Llama 3.1 Community License가 적용됩니다. Hugging Face에서 해당 모델 사용에 별도 동의(agree to license)를 하지 않으면 자동 다운로더가 막힙니다. 공식 GitHub README에 이렇게 적혀 있습니다: “You need to agree to the license of the Llama model on your HuggingFace account and login using huggingface-cli login.” (출처: HiDream-ai/HiDream-I1 GitHub README, 2025.04.07)

💡 MIT 라이선스라는 말에 안심하고 다운받다가 Llama 동의 없이 막히는 경우가 꽤 됩니다. Llama 3.1은 상업 이용은 허용하되 월간 활성 사용자 7억 명 초과 시 별도 허가가 필요한 조건이 있습니다. 개인 사용·소규모 프로젝트는 문제없지만, 서비스 규모가 크면 라이선스를 따로 확인해야 합니다.

VAE 컴포넌트는 FLUX.1 [schnell](Apache 2.0), T5-v1.1-xxl은 Apache 2.0, Llama-3.1-8B-Instruct만 별도 라이선스입니다. 4개 인코더 중 1개가 발목을 잡는 구조입니다. 로컬 실행 전에 HuggingFace 계정에서 Llama 3.1 접근 권한 신청을 먼저 해두는 것이 맞습니다.

▲ 목차로 돌아가기

fal.ai에서 바로 쓰는 방법 (설치 없이)

로컬 GPU가 없거나 VRAM이 부족하면 fal.ai API를 쓰는 게 현실적입니다. 요금은 메가픽셀당 $0.05로, 1024×1024 이미지 1장이 약 $0.05(약 70원)입니다. (출처: fal.ai/models/fal-ai/hidream-i1-full)

fal.ai에서 제공하는 모델 변형은 4가지입니다. fal-ai/hidream-i1-full, fal-ai/hidream-i1-dev, fal-ai/hidream-i1-fast, 그리고 image-to-image 변환 버전이 있습니다. 설치 없이 브라우저에서 프롬프트 입력만으로 바로 생성이 가능합니다.

LoRA 가중치도 URL로 직접 넣을 수 있습니다. HiDream I1 기반 LoRA는 HuggingFace에서 공유되고 있어, 특정 스타일을 추가로 학습시킨 가중치를 API 파라미터에 경로만 넣어주면 됩니다.

ComfyUI 환경에서 실행하고 싶다면 Hugging Face Space(HiDream-ai/HiDream-I1-Dev)가 무료로 열려 있습니다. 서버 부하가 몰릴 때 대기가 길어지지만, 비용 없이 Dev 버전을 체험하기에 충분합니다.

▲ 목차로 돌아가기

Q&A

Q. HiDream I1은 Stable Diffusion과 어떻게 다른가요?

Stable Diffusion 계열은 UNet 기반 아키텍처를 주로 씁니다. HiDream I1은 Diffusion Transformer(DiT) + Mixture of Experts 구조입니다. 결과물 품질 측면에서 프롬프트 지시 정확도(GenEval)와 인간 선호도(HPS) 모두 SDXL보다 높습니다. 대신 모델 파일이 훨씬 크고 VRAM 요구량도 높습니다.

Q. RTX 4090이 있으면 Full 버전을 못 쓰는 건가요?

fp16/bf16 정밀도의 Full 버전은 RTX 4090(24GB)으로 실행이 안 됩니다. 그러나 fp8 양자화 버전은 RTX 4090에서 약 74초로 작동합니다. 품질 손실이 약간 있지만, 벤치마크 수치 기준으로는 여전히 Flux.1-dev fp16보다 높은 편입니다.

Q. 생성한 이미지를 상업적으로 써도 되나요?

HiDream I1 모델 자체는 MIT 라이선스로 상업 이용이 허용됩니다. 단, 내장된 Llama-3.1-8B-Instruct는 월간 활성 사용자 7억 명 초과 서비스에는 별도 Meta 허가가 필요합니다. 개인 사용·소규모 서비스라면 문제없습니다.

Q. HiDream E1이나 E1-1은 뭔가요?

HiDream E1은 HiDream I1을 베이스로 이미지 편집에 특화된 파생 모델입니다. “고양이를 강아지로 바꿔줘” 같은 지시문으로 기존 이미지를 수정하는 용도입니다. 2025년 7월 16일에 업그레이드 버전 E1-1이 공개됐으며, Artificial Analysis ELO 기준으로 FLUX Kontext Dev보다 50 ELO 높다고 발표됐습니다.

Q. Dev가 Full보다 결과가 더 좋다는 말은 무슨 뜻인가요?

벤치마크 수치는 Full이 더 높습니다. 그런데 Reddit의 실사용자 비교(r/StableDiffusion)에서 초상화·자연 사진 등 특정 스타일에서 Dev가 더 자연스럽다는 평이 반복됩니다. 증류 모델 특유의 부드러운 텍스처가 의도치 않게 사람이 선호하는 결과를 낸다는 해석이 있습니다. Full이 정답이라고 단정하기 어렵습니다.

▲ 목차로 돌아가기

마치며

HiDream I1은 오픈소스 이미지 생성 모델 중 GenEval 0.83, HPS v2.1 33.82로 현재 시점(2025.04.07 공개, 기술 보고서 2025.05.28 게재) 기준 가장 높은 수치를 냅니다. 수치만 보면 Flux.1-dev를 명확히 앞섭니다.

그런데 막상 써보려면 제약이 꽤 있습니다. Full fp16은 RTX 4090에서 실행이 안 됩니다. Llama 라이선스 동의 없이는 자동 다운로드가 막힙니다. Dev가 수치상 Full보다 낮지만 실사용에서 더 선호되는 경우도 있습니다.

“벤치마크 1등 = 내가 바로 쓸 수 있는 최고의 모델”은 아닙니다. 본인 GPU의 VRAM을 먼저 확인하고, 24GB라면 fp8 버전으로 시작하거나 fal.ai API를 쓰는 게 시간 낭비 없는 방법입니다. 솔직히 처음 쓰는 거라면 HuggingFace Space에서 무료로 Dev를 먼저 체험해보는 쪽이 맞습니다.

📚 본 포스팅 참고 자료

HiDream-ai/HiDream-I1 GitHub 공식 레포 — https://github.com/HiDream-ai/HiDream-I1
HiDream-I1-Full Hugging Face 공식 레포 — https://huggingface.co/HiDream-ai/HiDream-I1-Full
HiDream-I1 arXiv 논문(2505.22705) — https://arxiv.org/abs/2505.22705
InstaSD HiDream GPU 벤치마크 리포트 — https://www.instasd.com/post/hidream-performance-benchmarks-in-comfyui
fal.ai HiDream-I1-Full API 문서 — https://fal.ai/models/fal-ai/hidream-i1-full

본 포스팅 작성 이후 HiDream I1의 서비스 정책·UI·기능·라이선스 조건이 변경될 수 있습니다. 벤치마크 수치는 HiDream-I1 공개 시점(2025.04.07) 기준이며, 이후 업데이트 버전에서 달라질 수 있습니다. Llama 3.1 라이선스 조건 변경은 Meta 공식 페이지에서 별도 확인이 필요합니다.

Flux 비교, HiDream I1, 오픈소스 이미지 생성 AI, OpenAI 이미지 모델, Stable Diffusion 대안

HiDream I1, 17B인데 4090에서 안 됩니다

HiDream I1, 17B인데 4090에서 안 됩니다

HiDream I1이 뭔지, 한 줄로

Full vs Dev vs Fast — 3가지 버전의 차이