Voxtral TTS, 한국어 안 되는데 왜 주목받을까요?

Published on

2026년 3월 28일

2026.03.23 기준
Voxtral TTS (voxtral-4b-tts-2603)
API $0.016 / 1k chars

Voxtral TTS, 한국어 안 되는데
왜 이렇게 주목받을까요?

Mistral AI가 2026년 3월 23일 내놓은 오픈웨이트 TTS 모델입니다. ElevenLabs보다 선호도 68.4% 높다고 하는데, 정작 한국어는 지원 목록에 없습니다. 숫자만 보면 모순처럼 보이는 이 모델, 실제로 뭐가 다른지 공식 발표와 논문 기준으로 직접 확인했습니다.

68.4%

vs ElevenLabs Flash v2.5
음성 클로닝 선호도

90ms

최초 음성 출력까지
시간 (TTFA)

3GB

양자화 시
필요 RAM

파라미터 수
(CC BY-NC 오픈웨이트)

오픈웨이트인데 ElevenLabs보다 낫다고요?

솔직히 말하면, 이 결과를 처음 봤을 때 반신반의했습니다. Mistral 공식 논문(arXiv:2603.25551, 2026.03.27)에 따르면, 원어민 화자 3명이 블라인드 테스트로 비교했을 때 Voxtral TTS가 ElevenLabs Flash v2.5보다 음성 클로닝 항목에서 68.4%의 선호도를 기록했습니다. 기본 목소리 평가에서도 58.3%로 앞섰습니다.

💡 공식 논문과 실제 평가 방식을 같이 놓고 보니 이런 차이가 보였습니다. 이 테스트는 Mistral이 자체 진행한 내부 평가라는 점에서 독립 검증이 아닌 1차 자료입니다. 이 점을 감안하고 수치를 해석해야 합니다.

평가 방법은 9개 지원 언어 각각에서 2명의 원어민 목소리를 기준으로, 자연스러움·억양 일치도·음성 유사도 세 항목을 나란히 놓고 평가하는 방식이었습니다. ElevenLabs가 수년간 음성 AI의 기준점으로 여겨졌던 점을 생각하면, 오픈소스 모델이 이 수치를 기록했다는 사실 자체가 특이합니다.

단, ElevenLabs v3(프리미엄 티어)와 비교하면 이야기가 달라집니다. Mistral 측도 Voxtral TTS가 ElevenLabs v3와는 “비슷한 수준(parity)”이라고 표현했습니다. Flash v2.5 대비 우위이지, 최상위 티어를 압도한다는 뜻이 아닙니다. (출처: Mistral AI 공식 블로그, 2026.03.23)

▲ 목차로 돌아가기

모델이 작을수록 더 빠른 이유가 있습니다

Voxtral TTS의 총 파라미터는 약 4B(40억)입니다. 구성은 세 부분으로 나뉩니다. 3.4B짜리 Transformer 디코더 백본, 390M짜리 Flow-matching 음향 트랜스포머, 300M짜리 자체 개발 코덱입니다. 이 중 백본은 Ministral 3B 기반으로, Mistral이 음성-텍스트 모델(Voxtral Transcribe)에도 같은 백본을 재활용했습니다. (출처: Mistral AI 공식 논문, arXiv:2603.25551)

Mistral VP Pierre Stock은 VentureBeat 인터뷰(2026.03.26)에서 “양자화하면 RAM 3GB로 구동되고, 오래된 칩에서도 실시간 처리가 가능하다”고 했습니다. 스마트폰에서도 돌아간다는 얘기입니다. 엣지 기기에서 TTS를 실행할 수 있다는 건 서버 비용 구조 자체가 달라진다는 뜻입니다.

항목	Voxtral TTS	ElevenLabs Flash v2.5
최초 음성 출력(TTFA)	약 90ms	유사 수준
실시간 처리 배율(RTF)	6x (실시간의 6배 빠름)	공개 미정
모델 가중치 공개	✅ (CC BY-NC 4.0)	❌ (클로즈드)
API 가격	$0.016 / 1k 문자	구독제 (월 $5~$1,300+)
음성 클로닝 기준 오디오	3초 이상	모델별 상이

출처: Mistral AI 공식 발표(2026.03.23), VentureBeat(2026.03.26), ElevenLabs 공식 사이트

RTF 6x라는 수치는, 10초짜리 음성 클립을 약 1.6초 만에 생성할 수 있다는 의미입니다. 음성 에이전트처럼 실시간 대화가 필요한 경우에 이 속도가 결정적으로 작동합니다.

▲ 목차로 돌아가기

5초 샘플만 있으면 목소리를 복제합니다

공식 문서(docs.mistral.ai)에는 “23초의 오디오”로 목소리를 클로닝할 수 있다고 나오지만, 논문에는 “3초 이상의 레퍼런스 오디오”를 기준으로 삼았다고 적혀 있습니다. 공식 문서와 논문 사이 수치가 다릅니다. Mistral이 공식 답변을 별도로 내놓지 않은 부분이라서, 실제로 써보면 최소 기준은 상황에 따라 달라질 수 있습니다.

💡 공식 발표와 논문 수치를 교차해 보니, 짧은 레퍼런스로도 클로닝이 가능하다는 점보다 방언·억양까지 복제한다는 점이 더 눈에 띄었습니다. Mistral VP가 직접 자신의 프랑스 억양 영어를 레퍼런스로 넣고 독일어를 생성했을 때, 프랑스 억양의 독일어가 나왔다고 설명했습니다. (출처: VentureBeat, 2026.03.26)

이게 중요한 이유는 더빙이나 다국어 고객 지원에서 실질적으로 쓸 수 있는 구조이기 때문입니다. 한 명의 브랜드 목소리를 9개 언어로 그대로 확장할 수 있습니다. 단, 한국어는 이 9개 언어에 포함되지 않습니다.

Voxtral TTS가 지원하는 9개 언어는 영어, 프랑스어, 독일어, 스페인어, 네덜란드어, 포르투갈어, 이탈리아어, 힌디어, 아랍어입니다. 아시아 언어 중에서는 힌디어만 포함되어 있고, 한국어·일본어·중국어는 현재 지원 목록에 없습니다. (출처: Mistral AI 공식 문서, 2026.03.23 기준)

▲ 목차로 돌아가기

가격 계산: ElevenLabs와 실제로 얼마나 차이 날까요

Voxtral TTS API 가격은 1,000자당 $0.016입니다. 한 달에 100만 자를 처리하면 $16이 나옵니다. 같은 양을 ElevenLabs Pro 플랜($99/월, 50만 자 포함)으로 처리하려면 최소 2개 플랜, 즉 $198 이상이 필요합니다.

📊 100만 자 처리 기준 비용 비교

Voxtral TTS API: 1,000,000자 ÷ 1,000 × $0.016 = $16

ElevenLabs Pro × 2: $99 × 2 = $198

차이: 같은 처리량 기준 약 12배 저렴 (단, 자체 서버 비용 별도)

출처: Mistral AI 공식 발표(2026.03.23), ElevenLabs 공식 가격표(2026.03 기준), VentureBeat(2026.03.26)

단, 이 계산은 API를 직접 호출할 때 기준입니다. 오픈웨이트로 자체 서버에서 돌리면 API 비용 자체가 없어지지만, GPU 인프라 비용이 대신 발생합니다. 소규모 프로젝트라면 API가, 대규모 트래픽이라면 온프레미스 배포가 더 유리한 구조입니다.

ElevenLabs는 월 $5(Starter)부터 $1,300 이상(Business)까지 구독제이고, API 사용량이 플랜 한도를 초과하면 추가 요금이 붙습니다. 한 사용자 후기(Reddit, r/ElevenLabs)에서는 실질 과금이 표시 단가의 2.8배였다는 사례도 있습니다. Voxtral은 사용량 그대로 청구되는 단순 종량제입니다. (출처: ElevenLabs 공식 사이트, qcall.ai 리뷰, 2026.03 기준)

▲ 목차로 돌아가기

한국어 안 되는데도 주목해야 하는 진짜 이유

한국어가 없으니 국내 서비스에 당장 쓸 수는 없습니다. 그런데도 이 모델을 눈여겨봐야 하는 이유가 있습니다. Mistral이 이번 발표와 함께 “언어와 방언 지원 확장”을 다음 방향으로 명시했기 때문입니다. (출처: VentureBeat 인터뷰, 2026.03.26)

💡 기존 TTS 시장은 “얼마나 자연스럽냐”로만 경쟁했는데, 이 모델은 “데이터를 서버 밖으로 내보내지 않는다”는 점을 전면에 내세웠습니다. 음성 데이터에는 단어가 아니라 감정·신원·의도가 담깁니다. 의료나 금융 분야에서는 제3자 API에 음성을 전송하는 것 자체가 컴플라이언스 문제가 됩니다.

Mistral VP는 이를 ‘소유하는 음성(Own Voice)’과 ‘빌리는 음성(Rented Voice)’의 차이로 설명했습니다. ElevenLabs는 기업이 목소리를 빌리는 구조입니다. Voxtral TTS는 가중치를 직접 받아서 자체 서버에서 돌리면, 음성 데이터가 Mistral 서버로도 전송되지 않습니다.

Mistral CEO Arthur Mensch는 2026년 매출이 연간 10억 달러를 넘을 것으로 예상하고 있고, ElevenLabs는 같은 주에 IBM과 기업 음성 AI 협업을 발표했습니다. (출처: TechCrunch, 2026.03.17 / VentureBeat, 2026.03.26) 이 타이밍에 오픈웨이트 모델로 치고 들어온 건 단순한 기술 발표가 아닙니다.

▲ 목차로 돌아가기

직접 써보기 전에 알아야 할 함정

① 평가가 자체 데이터라는 점

68.4%라는 선호도 수치는 Mistral 내부 평가입니다. 독립 제3자 기관의 검증 데이터가 아닙니다. 공식 논문에 방법론이 상세히 공개되어 있어 확인은 가능하지만, 같은 방법론으로 재현한 외부 결과는 아직 없습니다. 직접 Mistral Studio에서 테스트해 보는 것이 가장 정확합니다.

② MP3 포맷 TTFA는 90ms가 아닙니다

공식 문서에 따르면, 모델 내부 지연은 약 90ms이지만 실제 API TTFA는 포맷에 따라 다릅니다. PCM 포맷은 약 0.8초, MP3 포맷은 약 3초가 소요됩니다. (출처: docs.mistral.ai, 2026.03.23 기준) 90ms가 마케팅 수치처럼 보이는 이유가 여기 있습니다.

③ CC BY-NC 라이선스 조건

오픈웨이트로 배포되지만, 라이선스는 CC BY-NC 4.0입니다. 비상업적 목적 또는 Mistral API를 통한 상업 사용은 가능하지만, 모델 가중치를 직접 다운로드해서 상업 서비스에 탑재하려면 별도 라이선싱이 필요합니다. 기업 도입 전 법무 검토가 필요한 부분입니다. (출처: Hugging Face — mistralai/Voxtral-4B-TTS-2603)

④ 한국어 미지원

다시 한 번 정리하면, 현재 공식 지원 언어 9개에 한국어·일본어·중국어는 없습니다. 교차 언어 클로닝 기능이 있어도, 지원 언어 외 텍스트 입력에서 어떻게 작동하는지는 공식적으로 밝히지 않았습니다. 한국어 지원은 “다음 방향” 중 하나일 뿐, 일정이 공개된 상태가 아닙니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. Voxtral TTS를 지금 무료로 쓸 수 있나요?

Mistral Studio(console.mistral.ai/build/audio/text-to-speech)에서 UI로 바로 테스트할 수 있습니다. API 사용은 Mistral 계정이 필요하고, $0.016/1k 문자로 종량제 과금됩니다. 별도 구독 없이 쓴 만큼만 내는 구조입니다. 모델 가중치는 Hugging Face(mistralai/Voxtral-4B-TTS-2603)에서 CC BY-NC 4.0으로 내려받을 수 있습니다.

Q2. ElevenLabs를 쓰고 있는데 당장 바꿔야 할까요?

한국어 콘텐츠를 만들거나 ElevenLabs v3 수준의 감정 표현이 필요하다면, 지금 당장 바꿀 이유는 없습니다. 다국어 음성 에이전트를 대규모로 운영하거나 음성 데이터를 외부로 보내기 어려운 환경이라면, 비용과 데이터 주권 면에서 검토할 가치가 있습니다.

Q3. 스마트폰에서 실제로 돌릴 수 있나요?

양자화 시 RAM 3GB 요구 사항이므로 이론상 중급 이상 스마트폰에서 실행 가능합니다. 단, 실제 최적화된 추론 환경을 구성하려면 추가 작업이 필요하고, 일반 사용자가 직접 앱으로 구현하기는 어렵습니다. 현재 Le Chat 앱에서는 Voxtral TTS를 통한 음성 기능을 사용할 수 있습니다.

Q4. 한국어 지원은 언제 추가될까요?

Mistral이 공식 일정을 공개하지 않았습니다. 다음 방향 중 “언어·방언 확장”이 포함된다고 밝혔지만, 한국어가 포함될지 여부와 시점은 현재 알 수 없습니다. 관심 있다면 docs.mistral.ai와 공식 뉴스레터를 주기적으로 확인하는 것이 가장 정확합니다.

Q5. Voxtral Transcribe와 함께 쓰면 무엇이 달라지나요?

Voxtral Transcribe(음성→텍스트)와 Voxtral TTS(텍스트→음성)를 합치면 음성→음성 파이프라인이 구성됩니다. Mistral이 직접 밝힌 구성입니다. 고객 지원 전화봇이나 실시간 통역 에이전트를 외부 API 없이 자체 서버에서 돌릴 수 있게 됩니다.

▲ 목차로 돌아가기

마치며 — 음성 AI의 판이 바뀌고 있습니다

Voxtral TTS는 출시 5일도 안 됐지만, 다른 TTS들과 경쟁 포인트 자체가 다릅니다. 자연스러움이 아니라 “소유 가능성”을 내세운 첫 번째 프런티어급 오픈웨이트 TTS입니다. ElevenLabs의 68.4% 대비 선호도와 API 단가 기준 12배 이상의 가격 차이는, 한국어가 지원된다는 전제가 붙었다면 국내 기업들도 당장 검토했을 수치입니다.

지금 당장 한국어 프로젝트에 적용할 수 없는 건 분명한 단점입니다. 그런데 음성 AI 시장이 ‘빌리는 서비스’에서 ‘소유하는 인프라’로 이동하는 흐름 자체는 이미 시작됐습니다. Mistral이 언어 확장을 다음 목표로 잡고 있는 만큼, 한국어 지원 여부가 이 모델의 국내 파급력을 결정하는 다음 변수가 될 것입니다.

제 개인적인 생각으로는, 한국어 지원 타이밍이 가장 중요한 체크포인트입니다. 그게 추가되는 시점에 이 시장의 판도가 한 번 더 흔들릴 것 같습니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

Mistral AI 공식 발표 — Voxtral TTS: https://mistral.ai/news/voxtral-tts
Voxtral TTS 공식 논문 (arXiv:2603.25551): https://arxiv.org/abs/2603.25551
Mistral AI 공식 문서 — Text to Speech: https://docs.mistral.ai/capabilities/audio/text_to_speech
VentureBeat — Mistral AI Voxtral TTS 심층 보도 (2026.03.26): venturebeat.com
TechCrunch — Mistral Releases New Open Source TTS Model (2026.03.26): techcrunch.com
ElevenLabs 공식 가격표: https://elevenlabs.io/pricing

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 2026.03.23 공식 발표 및 2026.03.28 기준으로 작성되었으며, 이후 업데이트된 내용은 Mistral AI 공식 사이트에서 확인하시기 바랍니다.

AI 음성 생성, ElevenLabs 비교, 오픈소스 TTS, Mistral AI, Voxtral TTS

Voxtral TTS, 한국어 안 되는데 왜 주목받을까요?

Voxtral TTS, 한국어 안 되는데
왜 이렇게 주목받을까요?

오픈웨이트인데 ElevenLabs보다 낫다고요?

모델이 작을수록 더 빠른 이유가 있습니다

5초 샘플만 있으면 목소리를 복제합니다

가격 계산: ElevenLabs와 실제로 얼마나 차이 날까요

한국어 안 되는데도 주목해야 하는 진짜 이유