2025.12.10 공식 출시 기준
gemini-2.5-flash-preview-tts
IT / AI

Gemini 2.5 Flash TTS, 30가지 목소리 직접 확인했습니다

결론부터 말씀드리면, 무료로 쓸 수 있고 목소리 조합도 30가지입니다. 그런데 2~3분 넘어가는 오디오를 한 번에 뽑으면 금속음 잡음이 생기고, Pro TTS와의 차이도 생각보다 뚜렷합니다. 공식 문서와 실제 커뮤니티 보고를 같이 놓고 보니 놓치기 쉬운 조건들이 보였습니다.

30가지

지원 목소리 수

24kHz

출력 샘플레이트

2분

잡음 발생 기준선

32k

입력 토큰 컨텍스트

Gemini 2.5 Flash TTS가 기존 TTS와 다른 이유

Gemini 2.5 Flash TTS는 2025년 5월에 Preview로 먼저 공개됐고, 같은 해 12월 10일 대대적인 업데이트를 거쳤습니다. (출처: Gemini API 공식 Changelog, 2025.12.10) 기존 TTS 서비스들이 미리 학습된 음성 파일을 이어 붙이는 방식이었다면, 이 모델은 LLM 기반으로 텍스트의 맥락을 읽고 억양과 감정을 함께 합성합니다.

구글이 공식 문서에서 “모델은 무엇을 말해야 하는지뿐만 아니라 어떻게 말해야 하는지도 안다”고 직접 밝힌 것처럼, 단순 음성 변환이 아닙니다. (출처: Google AI for Developers — TTS 가이드) 이 차이가 실제로 어떤 의미냐면, 프롬프트로 “런던 브릭스턴 출신 DJ 스타일로 읽어줘”라는 지시가 통한다는 겁니다.

Live API에서 제공하는 실시간 대화형 오디오와는 완전히 다른 역할입니다. Flash TTS는 정확한 텍스트 낭독과 세밀한 스타일 제어가 필요한 오디오북, 팟캐스트, 나레이션 용도에 맞춰 설계됐습니다.

▲ 목차로 돌아가기

30가지 목소리 — 성격별로 분류해봤습니다

공식 지원 목소리는 총 30개입니다. (출처: Google AI for Developers — Voice Options) 무작정 쓰기보다는 성격 계열을 파악하고 선택하면 훨씬 결과가 좋습니다. 공식 문서의 분류를 그대로 옮겨왔습니다.

목소리 이름	성격 키워드	목소리 이름	성격 키워드
Zephyr	밝음	Puck	경쾌함
Kore	단호함	Fenrir	열정적
Enceladus	숨결감·브레시	Aoede	경쾌·산뜻
Charon	정보 전달형	Gacrux	성숙함
Sulafat	따뜻함	Achird	친근함
Leda	청년감	Sadaltager	박식함
그 외 24개 이상 — AI Studio에서 미리 듣기 가능		출처: Google AI for Developers

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — 목소리 이름만 보고 고르면 결과가 어긋나는 경우가 많습니다. 예를 들어 “피곤하고 지루한” 감정을 표현하고 싶다면, 공식 문서는 숨결감 있는 Enceladus를 명시적으로 추천합니다. 반대로 “흥분되고 밝은” 역할이라면 Puck이 잘 맞습니다. 성격 키워드와 Director’s Notes를 같이 쓸 때 결과가 눈에 띄게 달라집니다.

▲ 목차로 돌아가기

무료 할당량, 생각보다 조건이 붙어있습니다

Flash TTS를 무료로 쓸 수 있다는 건 맞습니다. 단, 구글이 2025년 12월 7일 무료 할당량을 대거 축소하면서 조건이 붙었습니다. Logan Kilpatrick(구글 AI Studio 리드 PM)이 커뮤니티에 직접 남긴 설명에 따르면, “원래 단 하루 프로모션으로 제공하려던 한도가 수개월간 실수로 유지됐다가 이번에 정상화했다”는 내용입니다. (출처: Gemini API Free Tier 2026 Complete Guide) 반년 가까이 혜택을 누린 개발자들 입장에서는 당연히 당황스러운 변화였습니다.

모델	RPM (분당 요청)	RPD (일일 요청)	비고
Gemini 2.5 Pro	5 RPM	약 100건	복잡 작업용
Gemini 2.5 Flash	10 RPM	약 250건	TTS 포함
Gemini 2.5 Flash-Lite	15 RPM	약 1,000건	대량 처리용

출처: Gemini API Free Tier 2026 Complete Guide (2026.02 기준), Google AI Studio 대시보드

TTS 전용 한도가 별도로 공개되지 않았습니다. Flash TTS는 일반 Flash 모델 할당량을 공유하는 구조로 보이며, EU·EEA·영국·스위스 지역에서는 무료 티어 자체가 제공되지 않습니다. 무료 상태에서 생성한 오디오는 구글이 모델 개선에 활용할 수 있다는 약관도 적용됩니다.

⚠️ 실수하기 쉬운 부분: 일별 한도는 태평양 표준시(PST) 자정 기준으로 초기화됩니다. 프로젝트 내 모든 API 키가 한도를 공유하므로, 여러 앱을 같은 프로젝트에서 돌리면 생각보다 빨리 소진됩니다.

▲ 목차로 돌아가기

Pro TTS와 Flash TTS, 뭐가 얼마나 다를까

두 모델은 같은 날(2025.12.10) 같이 업데이트됐고, 구글의 공식 설명은 각각 “저지연 최적화”(Flash)와 “고품질 최적화”(Pro)로 나뉩니다. (출처: Gemini API Changelog — 2025.12.10) 실제 차이를 표로 정리하면 이렇습니다.

항목	Flash TTS	Pro TTS
모델 코드	gemini-2.5-flash-preview-tts	gemini-2.5-pro-preview-tts
설계 목표	저지연, 실시간 응용	고품질, 감정 표현력
입력 토큰 한도	8,192 토큰	8,192 토큰
출력 토큰 한도	16,384 토큰	16,384 토큰
무료 티어 지원	✅ (일일 한도 내)	❌ 유료만
컨텍스트 윈도우	32k 토큰	32k 토큰
캐싱	❌ 미지원	❌ 미지원

출처: Google AI for Developers — Gemini 2.5 Flash Preview TTS 모델 페이지 (2026.02.18 업데이트)

💡 무료 여부가 가장 큰 실질적 차이입니다. Pro TTS는 처음부터 유료 티어에서만 작동합니다. 팟캐스트 나레이션처럼 품질이 중요하고 요청 수가 많지 않다면 Pro가 낫고, 실시간 음성 어시스턴트처럼 반응 속도가 먼저라면 Flash가 맞습니다.

▲ 목차로 돌아가기

2분 넘어가면 생기는 문제 — 공식 커뮤니티에서 직접 봤습니다

써보니 알게 된 문제가 있습니다. 연속 오디오 길이가 2~3분을 넘어가면 금속성 잡음(metallic noise)이 섞이기 시작합니다. 구글 AI 공식 커뮤니티 포럼에 2025년 12월 11일부터 같은 내용의 보고가 쌓였고, 2026년 3월까지도 동일한 문제가 이어지고 있습니다. (출처: Google AI Developer Forum, 2025.12.11)

Reddit 스레드에서는 “3분쯤부터 발음이 덜 깔끔해지고 배경 잡음이 끼기 시작한다”, “멀티스피커 모드에서는 2분 이후 목소리 전환이 엉키기도 한다”는 사례가 여럿 올라왔습니다. 구글 측 공식 답변은 아직 나오지 않은 부분입니다.

⚠️ 실용적 대응책: 긴 오디오가 필요하다면, 2분 미만 단위로 텍스트를 잘라 분할 생성한 뒤 이어 붙이는 방식이 현재 가장 현실적입니다. 컨텍스트 윈도우 한도(32k 토큰)와 캐싱 미지원 제약이 겹치는 상황이라, 긴 나레이션 프로젝트는 분할 접근이 불가피합니다.

💡 Flash TTS 특유의 “저지연 최적화” 설계 방향과 이 잡음 문제를 같이 보면 이런 그림이 나옵니다 — 빠르게 응답하도록 설계된 모델인데, 긴 오디오를 한 번에 처리하면 뒷부분에서 품질이 버겁다는 구조적 패턴입니다. Pro TTS에서도 비슷한 보고가 2026년 3월까지 이어지고 있습니다. (출처: Google AI Developer Forum, 2026.03.16)

▲ 목차로 돌아가기

프롬프트가 목소리 품질을 결정합니다

이게 핵심입니다. Flash TTS는 모델을 고르는 것보다 프롬프트를 어떻게 쓰느냐가 결과를 더 크게 좌우합니다. 구글 공식 프롬프팅 가이드는 “오디오 프로파일(Audio Profile) + 장면(Scene) + 디렉터 노트(Director’s Notes) + 스크립트”의 4단계 구조를 제안합니다. (출처: Google AI — TTS Prompting Guide)

“DJ처럼 읽어줘”보다는, “런던 브릭스턴 출신, 에너지 넘치는 라디오 DJ, 빠른 페이스, 보컬 스마일로 밝고 경쾌하게”처럼 구체적으로 쓸수록 차이가 납니다. 공식 문서 예시에서 강조하는 건 “너무 많은 규칙은 오히려 자연스러움을 해친다”는 점입니다. 핵심만 짚고 나머지는 모델에 맡기는 게 낫습니다.

프롬프트 구성 요소 (공식 가이드 기준)

Audio Profile — 캐릭터 이름, 역할, 나이, 배경
Scene — 물리적 환경, 분위기, 주변 상황
Director’s Notes — 스타일, 악센트, 페이스(가장 중요)
Transcript — 실제 읽을 텍스트 (스타일과 맥락이 일치할수록 좋음)

멀티스피커 모드를 쓸 때는 최대 2명까지 각기 다른 목소리를 지정할 수 있습니다. 스크립트에서 화자 이름을 명확히 구분해 쓰는 것이 전환 오류를 줄이는 데 도움이 됩니다.

▲ 목차로 돌아가기

실제로 써보려면 이렇게 시작하세요

API 코드 없이 바로 체험하려면 AI Studio — Generate Speech 페이지에서 시작하면 됩니다. 모델을 gemini-2.5-flash-preview-tts로 선택하고 목소리를 고른 뒤 텍스트를 입력하면 즉시 들어볼 수 있습니다.

API로 연동할 때는 response_modalities: ["AUDIO"]와 SpeechConfig를 설정하면 됩니다. 출력은 PCM 형식으로 오고, 24kHz·16bit·모노 기준입니다. ffmpeg를 써서 WAV로 변환하는 게 일반적입니다.

Python 기본 코드 (공식 문서 기준)

response = client.models.generate_content(
model="gemini-2.5-flash-preview-tts",
contents="Say cheerfully: Have a wonderful day!",
config=types.GenerateContentConfig(
response_modalities=["AUDIO"],
speech_config=types.SpeechConfig(
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Kore'
)
)
),
)
)

캐싱이 지원되지 않으므로 동일한 텍스트를 반복 생성하면 매번 새로 연산합니다. 비용 효율을 높이려면 결과 파일을 직접 저장해 두는 게 낫습니다.

▲ 목차로 돌아가기

Q&A

Q. Gemini 2.5 Flash TTS는 한국어를 지원하나요?

네, 지원합니다. 공식 문서에는 한국어(BCP-47 코드: ko)가 지원 언어 목록에 명시돼 있습니다. 입력 언어를 별도로 설정할 필요 없이 모델이 자동 감지합니다. (출처: Google AI for Developers — TTS Supported Languages)

Q. Flash TTS와 Pro TTS 중 팟캐스트 나레이션에는 뭐가 나을까요?

품질 우선이면 Pro TTS, 비용 부담 없이 먼저 써보고 싶다면 Flash TTS입니다. 단, 두 모델 모두 2~3분 초과 시 잡음 문제가 보고되고 있으므로, 긴 오디오는 분할 생성 후 편집 툴로 이어 붙이는 방식을 권장합니다.

Q. 멀티스피커 기능에서 지원하는 화자 수는 최대 몇 명인가요?

현재 최대 2명입니다. 공식 문서에 “up to 2 speakers”라고 명시돼 있습니다. 각 화자에게 다른 목소리를 지정하고, 스크립트에서 화자 이름으로 구분하면 됩니다. (출처: Google AI for Developers — Multi-speaker TTS)

Q. 무료로 생성한 오디오는 구글이 사용할 수 있나요?

무료 티어에서는 프롬프트와 응답 결과가 구글의 모델 개선에 활용될 수 있습니다. 고객 정보나 민감한 데이터를 포함한 오디오를 생성할 계획이라면 유료 티어로 전환하는 게 맞습니다. 유료 티어에서는 이 약관이 적용되지 않습니다.

Q. Live API의 오디오 기능과 Flash TTS는 어떻게 다른가요?

Live API는 실시간 대화형 오디오에 적합하고, 멀티모달 입출력을 다룹니다. Flash TTS는 텍스트를 정확하게 낭독하고 스타일을 세밀하게 제어해야 하는 상황에 맞습니다. 콘텐츠 제작·오디오북·나레이션은 TTS, 실시간 챗봇·음성 어시스턴트는 Live API 쪽이 맞는 역할입니다.

▲ 목차로 돌아가기

마치며

Gemini 2.5 Flash TTS는 무료로 쓸 수 있고 30가지 목소리를 제공하며 한국어를 포함한 80개 이상 언어를 지원합니다. 짧은 나레이션, 음성 어시스턴트 프로토타입, 콘텐츠 제작 실험에는 충분히 써볼 만한 수준입니다.

다만 솔직히 말하면, 2~3분 초과 잡음 문제는 아직 해결되지 않았고 구글도 공식 답변을 내놓지 않은 상태입니다. 캐싱이 안 되고 멀티스피커는 2명 한도라는 제약도 있습니다. 긴 오디오를 안정적으로 뽑아야 하는 프로덕션 환경이라면 지금 당장 전적으로 의존하기보다는, 분할 생성 전략을 병행하면서 업데이트를 지켜보는 쪽이 현실적입니다.

프롬프트를 잘 쓰면 결과 품질이 확실히 달라진다는 점은 써본 뒤 가장 인상 깊었던 부분입니다. 모델을 바꾸기 전에 Director’s Notes 구성을 먼저 다듬어 보는 걸 권장합니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

본 포스팅은 2026년 3월 29일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini API는 모델명, 할당량, 지원 기능 등이 업데이트로 달라질 수 있으므로 최신 정보는 공식 문서에서 확인하시기 바랍니다.

Gemini 2.5 Flash TTS, 30가지 목소리 직접 확인했습니다

Gemini 2.5 Flash TTS가 기존 TTS와 다른 이유

30가지 목소리 — 성격별로 분류해봤습니다

무료 할당량, 생각보다 조건이 붙어있습니다

Pro TTS와 Flash TTS, 뭐가 얼마나 다를까

2분 넘어가면 생기는 문제 — 공식 커뮤니티에서 직접 봤습니다

프롬프트가 목소리 품질을 결정합니다

실제로 써보려면 이렇게 시작하세요

Q&A

마치며

댓글 남기기응답 취소

최신 글

카테고리

Tags

Gemini 2.5 Flash TTS, 30가지 목소리 직접 확인했습니다

Gemini 2.5 Flash TTS가 기존 TTS와 다른 이유

30가지 목소리 — 성격별로 분류해봤습니다

무료 할당량, 생각보다 조건이 붙어있습니다

Pro TTS와 Flash TTS, 뭐가 얼마나 다를까

2분 넘어가면 생기는 문제 — 공식 커뮤니티에서 직접 봤습니다

프롬프트가 목소리 품질을 결정합니다

실제로 써보려면 이렇게 시작하세요

Q&A

마치며

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기