gemini-2.5-pro-preview-tts 기준
Vertex AI 정식 출시(GA)
Gemini 2.5 Pro TTS,
정식 출시됐는데 상업용 못 쓰는 이유
Google DeepMind가 2025년 9월 30일 Gemini 2.5 Pro TTS를 Vertex AI에서 정식 출시(GA)했습니다. “드디어 상업용으로 쓸 수 있겠다”는 기대가 생기는 타이밍이죠. 그런데 공식 문서와 실사용 데이터를 같이 놓고 보니, 정식 출시 이후에도 실제 상업 프로젝트에 바로 투입하기 어려운 조건들이 남아 있었습니다.
최대 655초(약 11분)
$20.00 / 1M 오디오 토큰
한국어 포함 24개
Flash와 Pro, 무엇이 실제로 다른가
Gemini 2.5 TTS는 Flash와 Pro, 두 트랙으로 나뉩니다. Google 공식 문서에 따르면 Flash TTS는 “저지연 최적화”, Pro TTS는 “품질 최적화”입니다. 쉽게 말하면 Flash는 빠르게, Pro는 더 자연스럽게 만들어진 모델입니다.
2025년 12월 10일 업데이트(출처: Google Blog)에서 두 모델 모두 세 가지가 동시에 개선됐습니다. 감정·톤 표현 강화(Enhanced expressivity), 문맥 기반 속도 자동 조절(Precision pacing), 다중 화자 전환 안정화(Seamless dialogue)가 그것입니다. 농담 타이밍에 맞춰 속도를 올리고, 강조 구간에서는 자연스럽게 느려지는 방식입니다.
💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다.
Flash TTS는 실시간 어시스턴트·대화형 앱용, Pro TTS는 오디오북·팟캐스트·내레이션 등 장편 완성본 제작용으로 포지셔닝이 나뉩니다. 같은 “TTS 모델”이지만 겨냥하는 쓰임이 처음부터 달랐습니다. 두 모델을 단순히 “비싼 것 vs 싼 것”으로 비교하면 용도를 잘못 잡을 수 있습니다.
30개의 프리빌트 음성(Zephyr, Kore, Puck, Aoede 등)을 제공하며, 한국어(ko-KR)를 포함해 24개 언어를 지원합니다. 음성 이름과 스타일 프롬프트를 조합해 “명랑하고 낙천적인 톤”에서 “침울하고 진지한 톤”까지 자연어로 지정할 수 있습니다. (출처: Gemini API 공식 문서)
정식 출시됐는데 상업용이 막히는 진짜 이유
Gemini 2.5 Pro TTS는 2025년 9월 30일 Vertex AI에서 GA(정식 출시)됐습니다. (출처: Google Cloud Blog) 그런데 Gemini API(Google AI Studio 경로)에서는 아직 gemini-2.5-pro-preview-tts라는 이름 그대로, “preview” 딱지가 붙어 있습니다. (출처: Gemini API 모델 문서, 최종 업데이트 2026-02-18)
⚠️ Vertex AI GA ≠ Gemini API GA
Vertex AI에서 정식 출시됐다는 것이 Gemini API에서도 동일한 상태를 의미하지 않습니다. 두 경로의 출시 단계가 다르게 관리됩니다. Google이 공식 답변을 내놓지 않은 부분이지만, 2026년 2월 기준으로 API 문서에 여전히 “preview” 버전명이 유지되고 있습니다.
실제 상업 프로젝트에서 더 심각한 문제는 따로 있습니다. 호출할 때마다 음성 특성(톤, 음정, 음질 미세 질감)이 달라집니다. 150,000자를 3일 동안 테스트한 크리에이터가 Google 공식 포럼에서 이 문제를 정면으로 제기했습니다. “단독 에피소드 10분짜리 음성은 뽑아낼 수 있지만, 두 번째 챕터부터는 앞 챕터와 목소리가 달라져 연속 프로젝트에 쓸 수 없다”는 것입니다. (출처: Google AI Developer Forum, 2025.10.22)
음성 일관성 문제는 GA 이후에도 해결되지 않았습니다. “Speaker ID 고정(Locking)” 기능이 없는 상태이고, 2026년 2월 현재까지 공식 문서에 해당 기능 추가 일정이 공개되지 않았습니다.
655초 출력 한도, 실제로 어느 정도 분량인가
공식 문서에서 입력 토큰 한도는 8,192토큰, 출력 토큰 한도는 16,384토큰입니다. 그런데 실사용자들이 실측한 결과, 오디오 출력이 정확히 655초(약 10분 55초)에서 잘립니다. (출처: Reddit r/Bard, 2025.10.27) 이는 오디오 토큰이 초당 25토큰으로 계산되기 때문입니다.
직접 계산해볼 수 있는 수식
출력 토큰 한도 16,384 ÷ 25토큰/초 = 655.36초
성인 기준 분당 약 160~180자를 읽는 속도라면, 655초 ≈ 약 1,700~2,000자 분량. A4 용지 2~3페이지 수준입니다.
오디오북 한 챕터가 보통 5,000~10,000자인 점을 생각하면, 655초 한도는 한 챕터를 3~6개로 쪼개야 한다는 뜻입니다. 그냥 쪼개면 되지 않냐고 생각할 수 있지만, 앞서 말한 음성 일관성 문제와 결합되면 각 조각의 목소리가 달라져 이어붙일 수 없게 됩니다. 한 문단씩 다르게 들리는 오디오북이 완성되는 상황입니다.
실사용자들이 실측으로 검증한 최적 청크 길이는 약 300자 이하입니다. 그 이상 넘어가면 끝부분에서 에코 현상이 발생하거나 음질이 급격히 저하됩니다. 결국 한 시간짜리 오디오북을 만들려면 300자짜리 조각 약 200개를 개별 생성해 직접 이어붙이는 작업이 필요합니다.
요금 구조, 싸 보이지만 계산해 보면 다릅니다
Gemini 2.5 TTS의 공식 요금은 Google Cloud Text-to-Speech 가격 페이지에 명시돼 있습니다. Flash와 Pro의 구조는 같지만 단가가 다릅니다.
| 모델 | 입력 (텍스트 토큰) | 출력 (오디오 토큰) |
|---|---|---|
| Flash TTS | $0.50 / 1M 토큰 | $10.00 / 1M 토큰 |
| Pro TTS | $1.00 / 1M 토큰 | $20.00 / 1M 토큰 |
출처: Google Cloud Text-to-Speech 가격 페이지 / 오디오 토큰 = 초당 25토큰
오디오 토큰이 초당 25개라는 점을 활용해 실제 비용을 역산해볼 수 있습니다. 1시간짜리 오디오를 Pro TTS로 생성하면 오디오 토큰이 3,600초 × 25 = 90,000토큰입니다. 90,000 ÷ 1,000,000 × $20.00 = $1.80(약 2,400원). 1시간 오디오에 입력 텍스트 비용 포함해도 $2 내외입니다.
💡 계산만 보면 저렴합니다. 그런데 현실에서는 300자 단위로 쪼개 200번 API 호출을 반복해야 하기 때문에, 직접 파이프라인을 구축하거나 자동화 스크립트를 짜지 않으면 실제로 활용하기 어렵습니다. 단가가 낮아도 진입 장벽은 높은 편입니다.
반면 ElevenLabs의 경우 Creator 플랜($22/월)에서 월 약 100,000자를 처리할 수 있습니다. 100,000자 기준으로 Pro TTS의 이론 비용은 $0.10 수준이라 단가 비교에서 Gemini가 훨씬 유리합니다. 다만 ElevenLabs는 음성 복제(Clone)와 안정적인 화자 일관성을 제공한다는 점에서 지금 당장 상업 프로젝트를 써야 한다면 다른 선택지가 될 수 있습니다.
공식 발표문과 실제 사용 흐름을 같이 놓고 보니
Google은 2025년 12월 업데이트 공지에서 “Enhanced expressivity”, “Precision pacing”, “Seamless dialogue” 세 가지를 강조했습니다. 공식 블로그에 수록된 데모 오디오를 들어보면 미스터리 소설 내레이터가 “긴장→흥분→안도”의 감정 흐름을 자연스럽게 구현합니다. 실제로 품질 자체는 경쟁 서비스 대비 높다는 평가가 많습니다.
💡 공식 발표문이 강조하는 “일관된 캐릭터 음성(Consistent character voices)”은 한 번의 호출 안에서 여러 화자를 구분하는 기능을 말합니다. 여러 번의 API 호출에 걸쳐 동일한 목소리를 유지하는 기능과는 다릅니다. 발표문만 읽으면 두 기능을 동일한 것으로 오해할 수 있습니다.
즉, 2명이 등장하는 팟캐스트 한 편(10분 이하)을 단번에 생성하는 용도라면 다중 화자 일관성이 잘 작동합니다. 하지만 드라마 전체 시리즈처럼 동일 캐릭터의 목소리를 주 단위로 여러 에피소드에 걸쳐 유지해야 하는 작업에서는 이 기능이 의도한 대로 작동하지 않습니다. 같은 “일관성”이라는 단어가 완전히 다른 범위를 가리키고 있는 셈입니다.
Google 공식 포럼에 올라온 피드백을 보면, 150,000자를 테스트한 한국어 크리에이터가 Pro TTS가 외래어 발음(예: ‘Sonoma County’)을 다른 한국어 TTS 서비스들이 실패하는 부분에서 올바르게 처리했다고 보고했습니다. 한국어 혼합 텍스트(고유명사, 영어 단어 삽입)에서 Pro 모델의 언어 모델링 능력이 드러나는 부분입니다.
현시점에서 현실적으로 쓸 수 있는 방법
지금 당장 Pro TTS를 쓸 수 있는 용도와 아직 무리인 용도를 구분해 정리했습니다.
| 용도 | 지금 사용 가능 | 이유 |
|---|---|---|
| 독립 에피소드 팟캐스트 (10분 이하) | ✅ | 1회 호출 내 음성 일관성은 양호 |
| 단편 광고 나레이션, 마케팅 영상 보이스오버 | ✅ | 300자 이하면 음질 저하 없음 |
| 시리즈 오디오북 (여러 챕터) | ❌ | 챕터 간 음성 불일치, Speaker ID 잠금 기능 없음 |
| 드라마·웹소설 연속 보이스 콘텐츠 | ❌ | 호출마다 음성 특성(음정·질감) 변동 |
| 프로토타이핑·데모 샘플 제작 | ✅ | 일관성보다 표현력·품질 테스트 목적이면 충분 |
짧은 독립 에피소드나 단편 콘텐츠라면 지금도 실용적입니다. 하지만 연속성이 필요한 프로젝트라면 아직 다른 선택지를 병행하거나, 자동화 파이프라인을 직접 구축할 준비가 되어 있을 때 투입하는 편이 현실적입니다. 한 Reddit 사용자가 오디오 품질 감지·재생성 자동화 도구(tsaudit)를 직접 만들어 공유한 것도 같은 이유에서입니다.
Q&A
마치며
Gemini 2.5 Pro TTS의 감정 표현 능력과 외래어 처리 품질은 경쟁 서비스 대비 확실히 한 단계 위에 있습니다. GA 선언도 있었고 가격도 낮습니다. 그런데 음성 일관성 문제 하나가 상업용 연속 프로젝트 전체를 막고 있는 상황입니다.
솔직히 말하면, 지금 단계에서 “GA = 바로 쓸 수 있다”고 판단하면 실제 프로젝트에 투입했을 때 낭패를 봅니다. Vertex AI GA와 Gemini API preview의 차이, 10분 출력 한도, 호출 간 음성 불일치라는 세 가지 제약을 모두 알고 들어가야 합니다. 단편 콘텐츠나 프로토타이핑 용도라면 지금도 가성비 최고 수준의 선택지입니다.
Speaker ID 잠금 기능이 추가되는 시점이 이 모델의 진짜 상업적 전환점이 될 것입니다. 그 전까지는 쓰임을 잘 골라서 쓰는 게 맞습니다.
본 포스팅 참고 자료
- Google Blog — Gemini 2.5 Text-to-Speech model updates (2025.12.10)
- Google AI for Developers — Text-to-Speech Generation (TTS) 가이드 (최종 업데이트 2026-01-26)
- Google Cloud — Text-to-Speech 가격 페이지
- Google Cloud Blog — Gen Media 업데이트 (2025.10.03, GA 선언)
- Google AI Developer Forum — Pro TTS 상업화 요청 스레드 (2025.10.22)
- Google AI for Developers — Gemini 2.5 Pro TTS 모델 스펙 (최종 업데이트 2026-02-18)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini API 모델명, 요금, 출력 한도 등은 Google 공식 문서에서 최신 내용을 확인하시기 바랍니다.











댓글 남기기