HiDream-I1 기준
MIT 라이선스
HiDream I1, 17B인데 4090에서 안 됩니다
GenEval 벤치마크에서 Flux.1-dev를 앞질렀습니다. 벤치마크 수치만 보면 최고입니다. 그런데 막상 로컬에서 돌리려고 하면 RTX 4090 24GB로도 Full 버전은 실행이 막힙니다. 수치가 좋다는 것과 내 PC에서 된다는 건 완전히 다른 이야기입니다.
HiDream I1이 뭔지, 한 줄로
HiDream I1은 중국 AI 스타트업 HiDream.ai(智象未来)가 2025년 4월 7일 MIT 라이선스로 공개한 텍스트-이미지 생성 모델입니다. 파라미터 수는 17B(170억 개)로, 같은 시기 가장 널리 쓰이던 Flux.1-dev(약 12B)보다 크지만 생성 속도는 오히려 비슷하게 설계됐습니다. 핵심은 아키텍처에 있습니다.
일반적인 Diffusion Transformer(DiT)와 달리, HiDream I1은 Sparse DiT + Mixture of Experts(MoE) 구조를 씁니다. 전체 파라미터 17B가 모두 한 번에 작동하는 게 아니라, 입력에 따라 필요한 “전문가 블록”만 활성화됩니다. 덕분에 복잡한 프롬프트에서 여러 객체·색상·위치를 동시에 처리하는 정밀도가 높습니다.
💡 공식 논문(arXiv:2505.22705)과 GitHub 코드를 같이 놓고 보니, MoE가 연산 효율을 높여주지만 모델 파일 자체의 크기(35GB)는 그대로라서 VRAM 부담은 줄지 않습니다.
또 하나의 특징은 텍스트 인코더를 4개 씁니다. OpenCLIP ViT-bigG, OpenAI CLIP ViT-L, T5-v1.1-xxl, 그리고 Llama-3.1-8B-Instruct입니다. 이 구성이 프롬프트 이해력을 높이는 핵심이기도 하지만, 동시에 로컬 설치의 복잡도를 끌어올리는 원인이기도 합니다.
Full vs Dev vs Fast — 3가지 버전의 차이
HiDream I1은 단일 모델이 아닙니다. 동일한 베이스에서 용도별로 나뉜 3가지 버전이 있고, 선택을 잘못하면 시간과 VRAM을 낭비합니다.
| 버전 | 추론 스텝 | guidance_scale | 최소 VRAM(fp8) | 특징 |
|---|---|---|---|---|
| Full | 50 | 5.0 | 약 40GB+ | 최고 품질, 네거티브 프롬프트 지원 |
| Dev | 28 | 0.0 | 약 24GB(fp8) | 증류 모델, 균형형 |
| Fast | 16 | 0.0 | 약 20GB(fp8) | 속도 최우선, 24GB 이하 권장 |
Dev와 Fast는 증류(distillation) 모델입니다. Full을 학습 목표로 삼아 더 적은 스텝으로 비슷한 결과를 내도록 훈련됐습니다. 중요한 건 Dev와 Fast에서는 guidance_scale을 반드시 0.0으로 설정해야 합니다. Full처럼 5.0으로 두면 결과물이 이상하게 나옵니다. 공식 GitHub에 그대로 적혀 있지만 그냥 지나치기 쉬운 부분입니다.
실사용자들의 비교(Reddit r/StableDiffusion, 2025.04~07) 기준으로는 오히려 Dev가 Full보다 더 자연스러운 결과물을 낸다는 평도 있습니다. Full이 수치상 최고이지만 실제 선호도에서 Dev에 밀리는 경우가 나오는 건 흥미로운 지점입니다.
벤치마크 수치, 직접 읽어봤습니다
HiDream I1 공식 GitHub 레포와 arXiv 논문(2505.22705)에는 세 가지 벤치마크 결과가 공개돼 있습니다.
GenEval — 프롬프트 지시 정확도
GenEval은 “빨간 공 두 개와 파란 상자 하나”처럼 객체 수, 색상, 위치 지시를 이미지에 얼마나 정확히 반영했는지를 측정합니다. HiDream I1의 전체 점수는 0.83으로 Flux.1-dev(0.66), DALL-E 3(0.67)를 확연히 앞섭니다. (출처: HiDream-ai/HiDream-I1 GitHub 공식 레포, 2025.04.07)
특히 “Single Object” 항목은 1.00(만점)이고, “Two Objects”도 0.98입니다. 복수 객체를 동시에 처리하는 능력이 월등히 높습니다. 기존 블로그가 “프롬프트 따라가기가 좋다”고만 적는데, 수치로 보면 Flux.1-dev보다 25.8% 높습니다.
HPSv2.1 — 사람이 선호하는 이미지 품질
HPSv2.1은 사람들이 “더 예쁘다”고 느끼는 쪽을 측정하는 인간 선호도 기반 점수입니다. HiDream I1의 평균은 33.82로 Flux.1-dev(32.47), Midjourney V6(30.29)를 앞섭니다. (출처: 동일 레포)
💡 벤치마크와 실사용 선호도를 같이 보면 이런 패턴이 보입니다 — 수치는 Full이 높지만, Reddit 실사용자 비교에서는 Dev가 더 자연스럽다는 평이 반복됩니다. 증류 과정에서 의도치 않게 “더 현실적인” 결과물이 나오는 현상으로 보입니다.
DPG-Bench — 복잡한 텍스트 설명 반영
DPG-Bench는 길고 복잡한 묘사를 이미지로 얼마나 잘 구현하는지를 봅니다. HiDream I1의 전체 점수는 85.89로 Flux.1-dev(83.79)보다 높습니다. 단, Global 항목(76.44)은 Flux.1-dev(85.80)보다 낮습니다. 세부 묘사에는 강하지만 이미지 전체의 큰 맥락 파악에는 아직 약점이 있습니다.
VRAM 현실 — 24GB로도 Full은 안 됩니다
HiDream I1 Full의 모델 파일 크기는 약 35GB입니다. fp16 정밀도로 로드하면 텍스트 인코더까지 포함해 40~48GB VRAM이 필요합니다. RTX 4090(24GB)은 물론, V100 32GB로도 모자랍니다. (출처: instasd.com HiDream 벤치마크 리포트, 2025.04.22 / GitHub Issue #7, 2025.04.08)
⚠️ Full(fp16/bf16) — RTX 4090 실행 불가
InstaSD 벤치마크 표에서 A5000(24GB), RTX 4090(24GB) 란에 “X”가 표기됩니다. 메모리 부족으로 OOM이 발생합니다.
fp8 양자화 버전을 쓰면 이야기가 달라집니다. Full-fp8은 RTX 4090에서 74초, Dev-fp8은 20초, Fast-fp8은 6.8초로 작동합니다. 24GB GPU를 가진 경우 fp8이 사실상 유일한 선택지입니다.
| 모델 버전 | fp16/bf16 | fp8 | 생성 시간(fp8) |
|---|---|---|---|
| Full (50스텝) | ❌ 불가 | ✅ 가능 | 약 74초 |
| Dev (28스텝) | ❌ 불가 | ✅ 가능 | 약 20초 |
| Fast (16스텝) | ❌ 불가 | ✅ 가능 | 약 6.8초 |
(출처: instasd.com HiDream Performance Benchmarks in ComfyUI, 2025.04.22)
MoE 덕분에 연산 효율은 높이면서도, 모델 가중치 파일 자체는 그대로라 VRAM 요구량은 줄지 않습니다. 연산량과 메모리 점유량은 다른 이야기입니다.
Llama 라이선스 문제, 아무도 안 알려줍니다
HiDream I1 자체는 MIT 라이선스입니다. 상업적 이용도 자유롭고, 코드와 모델 가중치를 마음대로 수정·배포할 수 있습니다. 그런데 여기서 놓치기 쉬운 게 있습니다.
HiDream I1은 텍스트 인코더 중 하나로 Meta Llama-3.1-8B-Instruct를 씁니다. 이 모델은 Llama 3.1 Community License가 적용됩니다. Hugging Face에서 해당 모델 사용에 별도 동의(agree to license)를 하지 않으면 자동 다운로더가 막힙니다. 공식 GitHub README에 이렇게 적혀 있습니다: “You need to agree to the license of the Llama model on your HuggingFace account and login using huggingface-cli login.” (출처: HiDream-ai/HiDream-I1 GitHub README, 2025.04.07)
💡 MIT 라이선스라는 말에 안심하고 다운받다가 Llama 동의 없이 막히는 경우가 꽤 됩니다. Llama 3.1은 상업 이용은 허용하되 월간 활성 사용자 7억 명 초과 시 별도 허가가 필요한 조건이 있습니다. 개인 사용·소규모 프로젝트는 문제없지만, 서비스 규모가 크면 라이선스를 따로 확인해야 합니다.
VAE 컴포넌트는 FLUX.1 [schnell](Apache 2.0), T5-v1.1-xxl은 Apache 2.0, Llama-3.1-8B-Instruct만 별도 라이선스입니다. 4개 인코더 중 1개가 발목을 잡는 구조입니다. 로컬 실행 전에 HuggingFace 계정에서 Llama 3.1 접근 권한 신청을 먼저 해두는 것이 맞습니다.
fal.ai에서 바로 쓰는 방법 (설치 없이)
로컬 GPU가 없거나 VRAM이 부족하면 fal.ai API를 쓰는 게 현실적입니다. 요금은 메가픽셀당 $0.05로, 1024×1024 이미지 1장이 약 $0.05(약 70원)입니다. (출처: fal.ai/models/fal-ai/hidream-i1-full)
fal.ai에서 제공하는 모델 변형은 4가지입니다. fal-ai/hidream-i1-full, fal-ai/hidream-i1-dev, fal-ai/hidream-i1-fast, 그리고 image-to-image 변환 버전이 있습니다. 설치 없이 브라우저에서 프롬프트 입력만으로 바로 생성이 가능합니다.
LoRA 가중치도 URL로 직접 넣을 수 있습니다. HiDream I1 기반 LoRA는 HuggingFace에서 공유되고 있어, 특정 스타일을 추가로 학습시킨 가중치를 API 파라미터에 경로만 넣어주면 됩니다.
ComfyUI 환경에서 실행하고 싶다면 Hugging Face Space(HiDream-ai/HiDream-I1-Dev)가 무료로 열려 있습니다. 서버 부하가 몰릴 때 대기가 길어지지만, 비용 없이 Dev 버전을 체험하기에 충분합니다.
Q&A
마치며
HiDream I1은 오픈소스 이미지 생성 모델 중 GenEval 0.83, HPS v2.1 33.82로 현재 시점(2025.04.07 공개, 기술 보고서 2025.05.28 게재) 기준 가장 높은 수치를 냅니다. 수치만 보면 Flux.1-dev를 명확히 앞섭니다.
그런데 막상 써보려면 제약이 꽤 있습니다. Full fp16은 RTX 4090에서 실행이 안 됩니다. Llama 라이선스 동의 없이는 자동 다운로드가 막힙니다. Dev가 수치상 Full보다 낮지만 실사용에서 더 선호되는 경우도 있습니다.
“벤치마크 1등 = 내가 바로 쓸 수 있는 최고의 모델”은 아닙니다. 본인 GPU의 VRAM을 먼저 확인하고, 24GB라면 fp8 버전으로 시작하거나 fal.ai API를 쓰는 게 시간 낭비 없는 방법입니다. 솔직히 처음 쓰는 거라면 HuggingFace Space에서 무료로 Dev를 먼저 체험해보는 쪽이 맞습니다.
📚 본 포스팅 참고 자료
- HiDream-ai/HiDream-I1 GitHub 공식 레포 — https://github.com/HiDream-ai/HiDream-I1
- HiDream-I1-Full Hugging Face 공식 레포 — https://huggingface.co/HiDream-ai/HiDream-I1-Full
- HiDream-I1 arXiv 논문(2505.22705) — https://arxiv.org/abs/2505.22705
- InstaSD HiDream GPU 벤치마크 리포트 — https://www.instasd.com/post/hidream-performance-benchmarks-in-comfyui
- fal.ai HiDream-I1-Full API 문서 — https://fal.ai/models/fal-ai/hidream-i1-full
본 포스팅 작성 이후 HiDream I1의 서비스 정책·UI·기능·라이선스 조건이 변경될 수 있습니다. 벤치마크 수치는 HiDream-I1 공개 시점(2025.04.07) 기준이며, 이후 업데이트 버전에서 달라질 수 있습니다. Llama 3.1 라이선스 조건 변경은 Meta 공식 페이지에서 별도 확인이 필요합니다.

댓글 남기기