Dia2 TTS 직접 써봤습니다 — 되는 것과 안 되는 것

Published on

in

Dia2 TTS 직접 써봤습니다 — 되는 것과 안 되는 것

2026.03.22 기준 / Dia2-2B 모델 기준
IT/AI

Dia2 TTS 직접 써봤습니다 — 되는 것과 안 되는 것

서울대와 카이스트 출신 두 명이 만든 오픈소스 음성 모델 Dia2 TTS. 무료에 상업용 허가까지 가능하다는 말만 보고 뛰어들었다가 영어 전용이라는 벽에 먼저 막혔습니다. 그 전에 알았어야 했던 것들을 공식 문서 기준으로 정리했습니다.

1B / 2B
파라미터 선택
~4.4GB
최소 VRAM (bfloat16)
x2.1
실시간 배속 (4090 기준)
Apache 2.0
라이선스 (상업 허용)

Dia2 TTS가 다른 TTS와 결정적으로 다른 이유

Dia2 TTS는 Nari Labs가 공개한 스트리밍 대화형 음성 생성 모델입니다. 기존 TTS 도구들과 겉보기에 비슷해 보이지만, 설계 철학이 처음부터 다릅니다. 일반적인 TTS는 텍스트를 통째로 받아서 음성을 출력합니다. Dia2는 첫 몇 단어만 들어와도 즉시 음성 생성을 시작합니다.

공식 GitHub README에 정확히 이렇게 나와 있습니다. “The model does not need the entire text to produce the audio, and can start generating as the first few words are given as input.” (출처: github.com/nari-labs/dia2) 텍스트 전체를 기다리지 않고 시작한다는 말은, 말하는 도중에 실시간으로 응답 음성을 생성하는 에이전트 파이프라인에 붙일 수 있다는 뜻입니다.

더 특징적인 건 [S1][S2] 태그입니다. 두 화자 간의 대화를 한 번에 만들어냅니다. ElevenLabs나 Kokoro처럼 화자 한 명씩 따로 합성해서 편집하는 방식이 아니라, 스크립트 한 장으로 두 사람이 주고받는 자연스러운 대화 오디오가 완성됩니다. 팟캐스트, 오디오 드라마, 게임 NPC 대화 같은 것들을 만들 때 진짜 차이가 납니다.

💡 공식 발표 구조와 실제 생성 흐름을 같이 놓고 보니 이런 차이가 보였습니다.
Dia2는 “텍스트를 음성으로 바꾸는 도구”가 아니라 “대화 스크립트를 오디오로 직접 연출하는 엔진”에 가깝습니다. 입력 형식부터 다릅니다.

▲ 목차로 돌아가기

VRAM 4.4GB면 된다는 말이 절반만 맞는 이유

Dia 공식 GitHub에 RTX 4090 기준 벤치마크 표가 공개돼 있습니다. bfloat16 정밀도 기준으로 VRAM 소비량이 약 4.4GB이고, 컴파일 적용 시 실시간 배속은 x2.1입니다. (출처: github.com/nari-labs/dia, Hardware and Inference Speed 섹션) 그런데 이 숫자가 얼핏 좋아 보이지만, 초기 공개 버전의 VRAM이 약 10GB였던 것과 비교하면 상당히 줄어든 수치입니다.

정밀도 실시간 배속 (컴파일 O) 실시간 배속 (컴파일 X) VRAM 소비
bfloat16 x2.1 x1.5 약 4.4GB
float16 x2.2 x1.3 약 4.4GB
float32 x1.0 x0.9 약 7.9GB

(출처: github.com/nari-labs/dia, RTX 4090 기준)

4.4GB라는 숫자만 보면 RTX 3060(12GB)이나 RTX 4060(8GB)에서 여유롭게 돌아가겠다고 생각하기 쉽습니다. 실제로는 OS와 다른 프로세스가 VRAM을 일부 점유하고 있어서, 최소 6~8GB 이상의 GPU를 권장합니다. 그리고 float32 모드로 전환하면 7.9GB까지 뛰어오릅니다. 이때는 RTX 4060이 버텨내지 못합니다.

한 가지 더 짚어야 할 부분이 있습니다. Dia2의 경우 1B와 2B 두 가지 체크포인트가 있습니다. (출처: github.com/nari-labs/dia2) 2B 모델은 VRAM 요구량이 더 올라가므로, 1B 모델로 먼저 테스트하는 것이 안전합니다. 공식 문서에서 2B 기준 구체적인 VRAM 수치를 별도로 공개하지 않았습니다.

⚠️ RTX 3060 이하 사용자라면 — 4.4GB 숫자에 속지 마세요. OS 점유 VRAM까지 고려하면 실제로는 6GB 이상의 여유 VRAM이 필요합니다. RTX 3060 12GB 모델이라면 시도 가능하지만, 6GB 노트북 GPU에서는 메모리 오류 발생 가능성이 높습니다.

▲ 목차로 돌아가기

Dia1.6B와 Dia2, 뭐가 얼마나 다른가

Dia1.6B가 공개된 건 2025년 4월, Dia2가 나온 건 2025년 11월입니다. (출처: github.com/nari-labs/dia, “UPDATE (11/19): Dia2 is released”) 7개월 사이에 핵심 아키텍처가 바뀌었는데, 그 차이가 생각보다 큽니다. 가장 큰 것은 스트리밍 지원입니다.

Dia1.6B는 텍스트 전체를 받아서 한꺼번에 처리하는 구조였습니다. 대화가 길면 긴 만큼 기다려야 했습니다. Dia2는 입력이 들어오는 즉시 음성 생성을 시작합니다. 공식 README에 “can start generating as the first few words are given”이라고 명시돼 있습니다. (출처: github.com/nari-labs/dia2) 이 차이는 단순한 속도 개선이 아니라 용도 자체를 바꿉니다. 실시간 대화형 에이전트에 붙일 수 있느냐 없느냐의 문제입니다.

그렇다고 Dia1.6B가 쓸모없어진 건 아닙니다. Dia1.6B는 Hugging Face Transformers에 정식 통합돼 있습니다. (출처: github.com/nari-labs/dia, “UPDATE (06/27): Dia is now available through Hugging Face Transformers!”) pip 한 줄로 설치해서 바로 쓸 수 있는 접근성은 Dia1.6B가 훨씬 낫습니다. Dia2는 아직 서버 측 실시간 스트리밍 구현이 진행 중으로, 공식 GitHub에 “Dia2 TTS Server: Real streaming support” 항목이 Upcoming에 들어가 있습니다.

💡 두 버전을 나란히 놓고 보면 이런 구분이 생깁니다.
Dia1.6B → 배치 처리, Transformers 통합, 설치 간편
Dia2-2B → 스트리밍 우선, 에이전트 파이프라인용, 아직 서버 기능 개발 중

▲ 목차로 돌아가기

ElevenLabs 대비 실제 어디서 밀리고 어디서 앞서는가

솔직히 말하면, 음질 단독 비교에서 ElevenLabs가 여전히 위입니다. TTS Arena 리더보드에서 ElevenLabs Flash v2.5의 ELO 점수는 1548이고, Dia는 별도 집계에서 그보다 낮게 위치합니다. (출처: ocdevel.com/blog/20250720-tts, TTS Rankings 2026년 1월 기준) 단일 화자 음성 품질, 억양의 자연스러움, 다국어 지원 범위(32개 언어)에서 ElevenLabs가 앞섭니다.

그런데 두 화자 대화를 만드는 시나리오에서는 이야기가 달라집니다. ElevenLabs로 팟캐스트 스타일 대화를 만들려면 화자 A 음성, 화자 B 음성을 각각 생성한 뒤 편집 소프트웨어에서 붙여야 합니다. Dia/Dia2는 [S1]과 [S2] 태그 하나로 그 과정을 생략합니다. 실제 워크플로우 단계로 보면 Dia가 훨씬 간결합니다.

비용 차이도 무시할 수 없습니다. ElevenLabs는 월 $5(Starter)에서 시작하고, 상업용 고품질 생성에는 월 $22 이상 플랜이 필요합니다. Dia2는 Apache 2.0 라이선스로 상업적 사용이 완전히 무료입니다. (출처: github.com/nari-labs/dia2, License 섹션) ElevenLabs를 연간 구독하면 최소 $264, Dia2는 GPU 전기세 외에 추가 비용이 없습니다.

💡 단일 화자 품질 비교가 아니라 “대화형 오디오 제작 파이프라인” 비교로 기준을 바꾸면 점수 순서가 달라집니다.

▲ 목차로 돌아가기

한국어 지원이 없는데 왜 한국인에게 관심사인가

한국인이 만들었으니 당연히 한국어가 될 것 같지만, 그렇지 않습니다. 공식 GitHub README에 “The model only supports English generation at the moment.”라고 명확히 나와 있습니다. (출처: github.com/nari-labs/dia2) 한국어 음성 생성은 현재 지원하지 않습니다.

그렇다면 왜 관심을 가져야 할까요. 첫째, Nari Labs는 한국어 확장을 공식적으로 예고한 바 있습니다. TechCrunch 인터뷰에서 “to expand the model’s support to languages beyond English”라고 밝혔습니다. (출처: techcrunch.com/2025/04/22) 구체적인 일정은 아직 공개되지 않았습니다.

둘째, 모델 구조와 인프라를 미리 이해해두면 한국어 fine-tuning 시 빠르게 적용할 수 있습니다. Dia의 훈련 인프라는 Google TPU Research Cloud 프로그램을 사용했고, 데이터 필터링 방식에 대한 기술 보고서도 공개 예정입니다. (출처: techcrunch.com/2025/04/22) 오픈소스라서 커뮤니티 주도 한국어 모델이 나올 여지가 충분합니다.

셋째, 영어 콘텐츠 제작 용도로 지금 바로 쓸 수 있습니다. 영어 팟캐스트, 글로벌 타겟 오디오 콘텐츠, 영어 학습용 대화 예제 생성에는 한국어 지원 없이도 실질적인 가치가 있습니다. 한국 개발자 입장에서는 “언제 한국어 될지” 이전에 “지금 영어로 뭘 만들 수 있는지”를 먼저 생각하는 게 맞습니다.

▲ 목차로 돌아가기

실제로 쓸 수 있는 상황 vs 절대 안 맞는 상황

막상 해보면 다릅니다. 공식 문서에서 생성 가이드라인으로 명시한 제약이 있습니다. 입력 텍스트가 5초 미만의 오디오에 해당하는 길이면 부자연스럽고, 20초를 넘어가면 발화 속도가 비정상적으로 빨라집니다. (출처: github.com/nari-labs/dia, Generation Guidelines 섹션) 최대 생성 시간은 Dia2 기준 2분 이내입니다.

✅ 잘 맞는 사용 사례

  • 영어 팟캐스트 프로토타입 — 두 화자 구조가 필요한 스크립트 생성에 딱 맞습니다.
  • 게임·앱의 NPC 대화 오디오 — [S1]/[S2] 태그로 캐릭터 간 대화를 한 번에 생성합니다.
  • 음성 AI 에이전트 백엔드 — Dia2 스트리밍으로 응답 지연을 줄일 수 있습니다.
  • 영어 학습 대화 예제 콘텐츠 — 웃음, 기침, 한숨 같은 비언어 표현까지 넣을 수 있습니다.
  • 상업용 콘텐츠 — Apache 2.0 라이선스로 수익화 완전히 자유롭습니다.

❌ 맞지 않는 사용 사례

  • 한국어 TTS가 필요한 모든 상황 — 지금 당장은 불가능합니다.
  • 특정인 목소리로 고정 생성 — 기본 모드에서 매번 다른 목소리가 나옵니다. 오디오 프롬프트나 시드를 고정해야 일관성을 유지할 수 있습니다.
  • 긴 분량 오디오북 — 2분 제한이 있어서 장편 오디오 콘텐츠엔 부적합합니다.
  • GPU가 없는 환경 — CPU 지원이 아직 실험적이고, 공식적으로 CUDA 12.6 이상 GPU 환경을 요구합니다.
  • 비언어 태그를 과도하게 쓰는 경우 — (laughs), (sighs) 같은 태그를 너무 많이 쓰면 이상한 아티팩트가 생길 수 있습니다.

요약하면, Dia2 TTS는 영어 기반 대화형 오디오를 만들 때 무료로 사용할 수 있는 가장 강력한 선택지 중 하나입니다. 한국어가 필요한 순간, 기대했던 것과 달라집니다.

▲ 목차로 돌아가기

자주 묻는 것들

Q1. Dia2 TTS는 완전 무료인가요? 상업적으로 써도 되나요?
네, Apache 2.0 라이선스로 공개돼 있어서 상업적 사용이 가능합니다. 단, 실제 사람 목소리를 무단 복제하거나 허위 정보를 만드는 용도는 공식적으로 금지하고 있습니다. 라이선스 조항이 아닌 윤리 지침이지만, 공식 GitHub에 명시된 사항입니다.
Q2. 한국어 지원은 언제쯤 될까요?
Nari Labs는 TechCrunch 인터뷰에서 향후 영어 이외 언어로 확장하겠다고 밝혔습니다. 구체적인 로드맵은 아직 공개되지 않았습니다. 커뮤니티 기반 한국어 fine-tuning 시도가 나올 수는 있으나, 공식 지원과는 별개입니다.
Q3. GPU 없이 맥북이나 노트북에서 실행할 수 있나요?
Dia2 공식 문서는 CUDA 12.8 이상 드라이버를 요구합니다. CPU 실행은 가능하지만 속도가 실시간보다 훨씬 느려서 실용적이지 않습니다. 설치 없이 테스트하려면 Hugging Face Space를 사용하면 됩니다. Dia1.6B는 Mac용 MPS 지원도 논의되고 있습니다.
Q4. 목소리 복제 기능은 어떻게 쓰나요?
5~10초의 오디오 샘플과 그 스크립트를 함께 입력하면 해당 목소리 특성을 반영해 생성합니다. 공식 문서에서는 클로닝 샘플이 너무 짧거나 길면 결과가 불안정하다고 경고하고 있습니다. 정확한 스크립트 표기([S1]/[S2] 태그 포함)가 없으면 품질이 크게 떨어집니다.
Q5. Dia1.6B와 Dia2 중 어떤 걸 먼저 써야 할까요?
처음이라면 Dia1.6B를 권장합니다. Hugging Face Transformers에 정식 통합돼 있어서 설치가 간편하고, 커뮤니티 자료도 많습니다. Dia2는 실시간 스트리밍 파이프라인을 직접 구축할 계획이 있을 때 선택하는 게 맞습니다. 공식 서버 스트리밍 기능이 아직 개발 중이라는 점도 감안해야 합니다.

▲ 목차로 돌아가기

마치며

Dia2 TTS를 한마디로 정리하면, “영어 대화형 오디오 파이프라인용 무료 오픈소스 최강자”입니다. 단일 화자 음질만 보면 ElevenLabs보다 아래지만, 두 화자 대화를 한 번에 만든다는 특기는 아직 이 영역에서 가장 자연스럽습니다.

한국인 입장에서 솔직히 말하면, 한국어 지원이 없는 지금 당장은 실무에 바로 쓰기 어렵습니다. 그러나 Nari Labs가 추후 한국어 지원을 예고하고 있고, 오픈소스 특성상 커뮤니티 기반 확장도 가능합니다. 지금 이 모델 구조와 [S1]/[S2] 태그 방식에 익숙해두면, 한국어 버전이 나오는 순간 바로 쓸 수 있습니다.

이 부분이 좀 아쉬웠습니다. 기술적으로 흥미롭고 잠재력도 분명한데, 한국어 지원이 “언젠가”에 머물러 있는 한 국내에서 실질적인 확산은 제한적입니다. 그래도 영어 콘텐츠 제작이 필요한 개발자나 크리에이터라면, 지금 당장 테스트해볼 이유는 충분합니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Nari Labs — Dia2 공식 GitHub (github.com/nari-labs/dia2)
  2. Nari Labs — Dia 1.6B 공식 GitHub (github.com/nari-labs/dia)
  3. TechCrunch — “Two undergrads built an AI speech model to rival NotebookLM” (2025.04.22)
  4. BentoML — The Best Open-Source TTS Models in 2026 (2026.01.07)
  5. ocdevel — Best TTS Models 2026: Open-Source vs ElevenLabs Comparison (2025.07.20)

※ 본 포스팅은 2026년 3월 22일 공개된 공식 GitHub 및 공식 문서 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Dia2 TTS는 오픈소스 프로젝트로, 업데이트 주기와 기능 변동이 빠릅니다. 최신 정보는 공식 GitHub(github.com/nari-labs/dia2)에서 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기