2026.03.13 정식 출시 기준
Eleven v3 (GA)

ElevenLabs v3 직접 써봤습니다 — 놀라운 것과 막히는 것

음성 퀄리티는 소름 돋는데, 막상 쓰다 보면 예상과 다른 조건들이 있습니다. 공식 문서에서 직접 확인한 수치와 함께 정리했습니다.

70+

지원 언어 수

5,000자

1회 최대 입력 한도

80% OFF

론칭 프로모션 할인

PVC ✕

프로 음성복제 미최적화

ElevenLabs v3가 2026년 3월 13일 정식 출시됐습니다. 알파 단계를 넘어 이제 누구나 웹 UI에서 바로 쓸 수 있습니다. 오디오 태그로 감정을 세밀하게 제어하고, 다중 화자 대화를 한 번에 생성하는 기능은 솔직히 기존 TTS와 차원이 다릅니다. 근데 막상 써보니 “이 용도에 쓰면 안 된다”는 조건이 공식 문서에 꽤 명확하게 적혀 있습니다. 특히 AI 챗봇이나 내 목소리 복제를 생각하고 계신다면, 지금 바로 그 부분부터 읽어보세요.

v3가 정확히 뭘 바꿨나 — 핵심 기능 4가지

이번 v3의 핵심은 오디오 태그(Audio Tags)와 다중 화자 대화(Multi-speaker Dialogue) API입니다. 이전 모델들이 텍스트 맥락에서 감정을 추론하는 방식이었다면, v3는 스크립트 안에 [whispers], [laughs], [sighs] 같은 태그를 직접 심어서 발화를 제어합니다. 공식 블로그는 이를 “숨 쉬고, 속삭이고, 웃고, 반응하는 목소리”라고 표현했습니다(출처: ElevenLabs 공식 블로그, 2026.03.13).

두 번째 변화는 Text to Dialogue API 신규 엔드포인트입니다. 기존에는 화자별로 TTS 요청을 따로 보내고 오디오를 붙여야 했는데, 이제 JSON 배열 하나로 다중 화자 대화를 자연스러운 타이밍과 끊김까지 포함해 생성할 수 있습니다. 세 번째는 70개 이상 언어 지원(한국어 포함), 네 번째는 텍스트 이해 깊이 향상으로, 같은 문장도 강세·리듬·표현력이 이전보다 자연스럽습니다. 솔직히 직접 들어보면 차이가 납니다.

▲ 목차로 돌아가기

AI 챗봇에 v3 쓰면 안 되는 이유

💡 공식 발표문과 실제 대화형 AI 구현 흐름을 같이 놓고 보니, 이 조합이 얼마나 위험한 선택인지 보였습니다.

ElevenLabs 공식 블로그는 이 점을 숨기지 않았습니다. “높은 지연시간 때문에 실시간·대화형 사용 사례에는 적합하지 않습니다. 이 경우 v2.5 Turbo 또는 Flash를 권장합니다”라고 직접 명시해뒀습니다(출처: ElevenLabs 공식 블로그, 2026.03.13). 실시간 대화 응답에서 0.2초 이상의 지연은 사용자가 체감하는 어색함으로 바로 이어지는데, Flash v2.5의 지연이 약 75ms인 것과 대조됩니다.

Flash v2.5는 ~75ms 지연으로 설계됐습니다. 75ms는 사람이 인지하기 어려운 수준의 지연입니다. v3는 이 지연을 공개하지 않았지만, 공식 문서에서 “더 높은 지연(higher latency)”으로 명시하면서 실시간 용도를 명시적으로 제외했습니다(출처: ElevenLabs 모델 공식 문서, 2026.03.22 기준). AI 고객센터 봇, 실시간 번역, 보이스 에이전트를 만들 계획이라면 v3는 당장 후보에서 빼는 게 맞습니다.

⚠️ 실시간 스트리밍 API도 현재 미지원입니다. GitHub 이슈 등에서 WebSocket 스트리밍 엔드포인트가 v3에서 403 오류를 반환한 사례가 확인됩니다. API 스트리밍 지원은 추후 업데이트 예정이라고 공식적으로 밝혔습니다(ElevenLabs 공식 발표문 기준, 이유는 별도로 설명하지 않았습니다).

▲ 목차로 돌아가기

내 목소리 복제(PVC)에서 v3가 더 나쁜 이유

v3에서 목소리가 더 생생해졌으니, 당연히 내 목소리 복제도 더 좋아졌을 거라고 생각하기 쉽습니다. 근데 공식 문서는 반대입니다. “Professional Voice Clone(PVC)은 현재 Eleven v3에 완전히 최적화되어 있지 않아서, 이전 모델 대비 클론 품질이 낮을 수 있습니다”라고 명시했습니다(출처: ElevenLabs 공식 프롬프팅 가이드). 내 목소리를 정교하게 복제하려면, 지금 당장은 Instant Voice Clone(IVC)이나 설계된 보이스를 쓰는 게 낫습니다.

왜 이런 일이 생기냐면, v3는 감정 범위를 넓히기 위해 학습 방식을 바꾼 모델입니다. 기존 PVC는 v2 계열에 맞게 튜닝돼 있어서, v3의 새로운 아키텍처와 맞물릴 때 목소리 특성이 일관되게 재현되지 않습니다. PVC 최적화는 “가까운 미래”에 제공될 예정이라고만 적혀 있고, 구체적인 시점은 아직 공개되지 않았습니다.

💡 같은 회사의 최신 모델이 기존 기능을 오히려 퇴보시킨다는 게 낯설 수 있습니다. 아키텍처 변화에 따른 호환성 비용이 실사용자에게 그대로 전가되는 구조입니다.

▲ 목차로 돌아가기

오디오 태그, 실제로 이렇게 씁니다

가장 핵심 기능이지만 막상 쓰다 보면 헷갈리는 부분이 있습니다. 오디오 태그는 소문자 대괄호로 텍스트 안에 삽입합니다. 예를 들어 [whispers] 무언가 오고 있습니다 [sighs] 느껴져요. 같은 식입니다. 여러 태그를 동시에 쓸 수도 있습니다([happily][shouts] 해냈어! [laughs]). 사용 가능한 태그는 감정형([excited], [crying], [sarcastic]), 효과음형([applause], [gunshot]), 실험형([strong Korean accent], [sings]) 등으로 나뉩니다(출처: ElevenLabs 공식 프롬프팅 가이드).

중요한 건 Stability 슬라이더 설정입니다. v3에서 Stability가 가장 결정적인 세팅이라고 공식 문서에서 직접 강조합니다. Creative 모드(낮음)에서는 감정 표현이 극대화되지만 hallucination(예기치 못한 발음이나 소음)이 생길 수 있고, Robust 모드(높음)에서는 안정적이지만 오디오 태그에 반응이 약해집니다. 일반 내러티브용이라면 Natural, 감정선이 중요한 콘텐츠라면 Creative로 시작해서 테스트하는 게 좋습니다.

주의할 점이 하나 더 있습니다. v3는 기존 모델이 지원하던 SSML break 태그(<break time="1s"/>)를 지원하지 않습니다. 대신 줄임표(…)나 쉼표로 멈춤을 조절해야 합니다.

▲ 목차로 돌아가기

모델별 스펙 비교 — 어떤 상황에서 어떤 모델을 쓸까

숫자로 비교하면 훨씬 명확합니다. 아래는 공식 문서에서 확인한 수치입니다(출처: ElevenLabs 모델 공식 문서).

항목	Eleven v3	Flash v2.5	Multilingual v2
지연 (Latency)	높음 (미공개)	~75ms	중간
1회 최대 입력	5,000자 (~5분)	40,000자 (~40분)	10,000자 (~10분)
지원 언어	70+ 개	32개	29개
오디오 태그	✔ 지원	✗	✗
실시간 대화봇	✗ 부적합	✔ 최적	✗
PVC 지원	△ 미최적화	✔ 완전 지원	✔
적합 용도	오디오북·드라마·영상 나레이션	챗봇·음성에이전트	기업영상·e-러닝

v3의 5,000자 제한은 Flash v2.5의 40,000자와 비교하면 8분의 1 수준입니다. 챕터 단위 오디오북을 만든다면 분할 작업이 필수입니다.

▲ 목차로 돌아가기

한국어 지원, 공식 문서와 실제 사이의 차이

💡 “70개 이상 지원”이라는 숫자만 보면 한국어도 완벽할 것 같지만, 실제로는 아주 구체적인 조건이 있습니다.

공식 지원 언어 목록에 Korean(KOR)이 포함돼 있습니다(출처: ElevenLabs 공식 언어 지원 문서). 그런데 Deepgram의 2026년 2월 분석에 따르면 ElevenLabs v3의 기본 제공 보이스들은 영어 훈련 데이터 편향으로 인해 비영어권 언어에서 영어 악센트가 섞이는 경향이 있습니다(출처: Deepgram, 2026.02.26). 완전히 자연스러운 한국어 발화를 원한다면, 한국어로 녹음된 IVC(Instant Voice Clone)나 Voice Library에서 한국어 전용 보이스를 선택하는 게 훨씬 낫습니다.

공식 프롬프팅 가이드는 v3 음성 선택에 대해 이렇게 말합니다. “v3의 가장 중요한 파라미터는 목소리 선택 자체입니다. 목소리가 원하는 발화 방식과 충분히 유사해야 합니다. 속삭이는 태그를 쓰더라도, 고함치는 스타일로 학습된 목소리는 그 태그에 잘 반응하지 않습니다.” 이 원칙은 한국어에서도 동일합니다. 한국어 콘텐츠를 만든다면, Voice Library에서 Korean으로 검색해 한국어 샘플이 있는 보이스부터 골라야 결과물이 달라집니다.

▲ 목차로 돌아가기

요금제와 5,000자 한도의 진짜 의미

론칭 프로모션으로 UI에서 v3를 80% 할인된 가격에 쓸 수 있습니다. 할인 기간은 6월 말까지이며, 이후에는 Multilingual v2와 동일한 가격으로 전환됩니다(출처: ElevenLabs 공식 블로그, 2026.03.13). 지금 바로 테스트해볼 타이밍인 이유입니다.

단, 5,000자(약 5분 분량) 한도를 실제 콘텐츠 제작 흐름으로 환산해보면 이렇습니다. 유튜브 10분짜리 영상의 나레이션 스크립트는 보통 2,000~3,000자 수준입니다. 5,000자는 약 15~20분 분량의 나레이션에 해당합니다. 오디오북 챕터 단위로 작업한다면 보통 1~2회 분할이면 충분하지만, 1시간짜리 콘텐츠라면 12번 이상 요청을 나눠야 합니다. API를 쓸 경우 연결 오버헤드도 고려해야 합니다. 이 계산이 실제 작업량을 가늠하는 데 직접 써볼 수 있는 기준입니다.

무료 플랜의 경우 v3 사용 시 동시 처리(Concurrency) 한도가 Multilingual v2 기준 2회로 제한됩니다. Flash 계열은 4회입니다. 여러 섹션을 한꺼번에 렌더링하는 자동화 파이프라인을 구성한다면, Creator 이상의 플랜(동시 처리 5회)이 실질적으로 필요합니다(출처: ElevenLabs 공식 모델 문서).

▲ 목차로 돌아가기

Q&A

Q1. ElevenLabs v3는 무료로 쓸 수 있나요?

무료 플랜에서도 v3를 사용할 수 있습니다. 단, 무료 플랜의 동시 처리 한도가 Multilingual v2 기준 2회로 낮기 때문에 실제 작업 속도가 느릴 수 있습니다. 크레딧 소모 기준은 유료 플랜과 동일합니다.

Q2. 기존에 만든 PVC 목소리를 v3에서 써도 되나요?

쓸 수는 있지만, 공식 문서 기준으로 PVC는 현재 v3에서 최적화되지 않아 이전 모델 대비 클론 품질이 낮을 수 있습니다. 당장 고품질 복제가 필요한 프로젝트라면 IVC나 Voice Library의 설계된 보이스를 권장합니다.

Q3. 오디오 태그를 쓰면 태그 텍스트가 음성으로 읽힐 수도 있나요?

감정 지시 태그(예: [excited])는 오디오 태그로 처리되지만, 문맥에 따라 모델이 텍스트로 읽어버리는 경우도 있습니다. 공식 가이드는 “emotional delivery guides는 후반 편집에서 제거할 수 있다”고 명시했습니다. 최종 출력 전 항상 미리 듣기를 권장합니다.

Q4. API로 v3를 쓸 때 스트리밍이 가능한가요?

현재 API 스트리밍 지원은 “coming soon”으로 안내돼 있습니다. 현 시점(2026.03.22)에서 WebSocket 스트리밍 방식으로 v3를 사용하면 오류가 발생할 수 있습니다. 실시간 스트리밍이 필요한 용도라면 Flash v2.5 사용을 권장합니다.

Q5. 론칭 프로모션 80% 할인은 언제까지인가요?

공식 발표 기준으로 2026년 6월 말까지 적용될 예정입니다. 이후에는 Multilingual v2와 동일한 가격으로 전환된다고 명시했습니다. 정확한 종료 일정은 ElevenLabs 공식 사이트에서 확인하는 게 안전합니다.

▲ 목차로 돌아가기

마치며 — 총평

ElevenLabs v3는 분명히 기존 TTS가 넘지 못했던 벽을 넘었습니다. 감정 태그 하나로 목소리가 웃고 속삭이고 한숨을 쉬는 걸 들으면, “이게 AI 목소리라고?” 싶은 순간이 생깁니다. 오디오북, 드라마 팟캐스트, 감정선이 중요한 영상 나레이션 용도로는 지금 당장 써볼 가치가 충분합니다.

단, 지금 당장 AI 챗봇이나 실시간 음성 에이전트에 붙이려 했다면 기다려야 합니다. 내 목소리 복제(PVC)가 핵심 용도라면 아직 이전 모델이 낫습니다. 5,000자 제한도 긴 콘텐츠 제작 흐름에서는 실제로 체감됩니다. 도구가 아무리 좋아도 용도를 잘못 고르면 기대 이하인 경험이 됩니다. 지금 v3를 써야 할 이유가 있는지, 기다려야 할 이유가 있는지를 먼저 따져보는 게 시간을 아끼는 방법입니다.

본 포스팅 참고 자료

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본 포스팅은 2026.03.22 기준 공식 문서를 토대로 작성되었으며, 최신 정보는 ElevenLabs 공식 사이트에서 확인하세요.

ElevenLabs v3 직접 써봤습니다 — 놀라운 것과 막히는 것

v3가 정확히 뭘 바꿨나 — 핵심 기능 4가지

AI 챗봇에 v3 쓰면 안 되는 이유

내 목소리 복제(PVC)에서 v3가 더 나쁜 이유

오디오 태그, 실제로 이렇게 씁니다

모델별 스펙 비교 — 어떤 상황에서 어떤 모델을 쓸까

한국어 지원, 공식 문서와 실제 사이의 차이

요금제와 5,000자 한도의 진짜 의미

Q&A

마치며 — 총평

본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

ElevenLabs v3 직접 써봤습니다 — 놀라운 것과 막히는 것

v3가 정확히 뭘 바꿨나 — 핵심 기능 4가지

AI 챗봇에 v3 쓰면 안 되는 이유

내 목소리 복제(PVC)에서 v3가 더 나쁜 이유

오디오 태그, 실제로 이렇게 씁니다

모델별 스펙 비교 — 어떤 상황에서 어떤 모델을 쓸까

한국어 지원, 공식 문서와 실제 사이의 차이

요금제와 5,000자 한도의 진짜 의미

Q&A

마치며 — 총평

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기