공개 프리뷰 (Preview)
Gemini Live API
Gemini 3.1 Flash Live, 싸도 막히는 조건 4가지
3월 26일 공개된 구글의 실시간 음성 모델입니다. 10분 통화 비용이 $0.29로, GPT-4o Realtime($2.08) 대비 7분의 1 수준. 그런데 공식 문서를 직접 들여다보니 “지금 당장 쓰면 안 되는 상황”이 분명히 있습니다.
기존 방식과 뭐가 다른가 — 아키텍처부터 다릅니다
Gemini 3.1 Flash Live를 처음 봤을 때 “또 음성 기능 추가된 거 아냐?” 싶었는데, 실제로 들여다보니 구조 자체가 달랐습니다. 기존 AI 음성 에이전트는 세 단계로 쪼개져 있었습니다. 음성을 텍스트로 변환하는 STT, 텍스트를 이해하고 답변을 만드는 LLM, 그리고 텍스트를 다시 음성으로 바꾸는 TTS. 이 세 단계를 거칠 때마다 지연이 쌓였고, 전형적인 응답 속도는 1~3초였습니다.
3.1 Flash Live는 이 세 단계를 모델 하나로 합쳤습니다. 오디오가 들어오면 전사(transcription) 없이 모델이 직접 처리하고, 오디오로 바로 출력합니다. 구글 공식 블로그에 따르면 응답 속도가 최소 0.96초까지 내려갑니다. 이전 Gemini 2.5 Flash 기반 방식의 약 2초 대비 절반 수준입니다. (출처: Google Blog, 2026.03.26)
솔직히 말하면, 속도보다 더 눈길이 갔던 건 “톤 인식”입니다. 단순히 뭐라고 말했는지를 텍스트로 파악하는 게 아니라, 목소리의 속도·높낮이·멈춤까지 처리한다고 공식 문서에 나옵니다. 고객이 짜증난 목소리로 말하면 그걸 감지하고 응답 방식을 조정합니다.
벤치마크 수치, 직접 읽어봤습니다
구글이 공개한 벤치마크 두 개가 특히 중요합니다. 첫째는 ComplexFuncBench Audio입니다. 여러 제약이 걸린 다단계 함수 호출을 음성 환경에서 얼마나 정확히 처리하는지 측정하는데, 3.1 Flash Live가 90.8%를 기록했습니다. 이전 모델(Gemini 2.5 Flash Native Audio 기준)은 71.5%였습니다. 약 19%p 차이입니다.
| 항목 | Gemini 3.1 Flash Live | GPT-4o Realtime | 이전 Gemini |
|---|---|---|---|
| 함수 호출 정확도 | 90.8% | 약 78% | 71.5% |
| BigBench Audio (High) | 95.9% | — | — |
| 최소 응답 시간 | 0.96초 | 약 1.5초 | 약 2초 |
| 지원 언어 | 90개 이상 | 약 50개 | 약 50개 |
| 컨텍스트 창 | 128K 토큰 | 128K 토큰 | 32K 토큰 |
출처: Google Blog (2026.03.26), findskill.ai 정리
함수 호출 정확도 90.8%가 실제로 의미하는 바는 이렇습니다. 음성으로 “화요일 예약 바꿔줘”라고 했을 때, 10번 중 9번은 캘린더 API를 실제로 호출해서 처리한다는 뜻입니다. 71.5%였던 이전 모델은 10번 중 3번은 실패했고, 그 실패가 바로 “고객이 전화를 끊는 순간”이었습니다.
요금 계산, GPT-4o Realtime과 직접 비교했습니다
공식 요금 페이지(ai.google.dev/gemini-api/docs/pricing)를 직접 확인한 결과입니다. 유료 티어 기준으로 오디오 입력이 분당 $0.005, 오디오 출력이 분당 $0.018입니다. 5분 통화에서 양쪽이 절반씩 말한다고 가정하면 이렇습니다.
구글은 “분당 $0.005/$0.018″이라고 토큰 기반 가격과 분 기반 가격을 병기합니다. 막상 계산해보면 5분짜리 통화 한 건이 약 6센트(약 88원)입니다. 그런데 GPT-4o Realtime을 동일한 조건으로 계산하면 약 38센트(약 553원)가 나옵니다. 6배 이상 차이입니다. 비용만 따지면 스케일 있는 운영에서 유리한 건 분명합니다.
| 항목 | Gemini 3.1 Flash Live | GPT-4o Realtime | 기존 STT+LLM+TTS |
|---|---|---|---|
| 오디오 입력 (시간당) | $0.35 | 약 $2.50 | 약 $1.50 |
| 오디오 출력 (시간당) | $1.40 | 약 $10.00 | 약 $3.00 |
| 시간당 총 비용 | $1.75 | 약 $12.50 | 약 $4.50 |
| 10분 통화 1건 | 약 $0.29 | 약 $2.08 | 약 $0.75 |
출처: Google AI Developer Pricing 공식 페이지 (ai.google.dev/gemini-api/docs/pricing, 2026.03.29 기준)
여기서 한 가지 생각해볼 게 있습니다. 기존 STT+LLM+TTS 방식 대비 비교해도 절반 이하입니다. 근데 기존 방식을 이미 쓰고 있다면, 마이그레이션 비용과 API 재설계 비용을 먼저 따져야 합니다. 비용이 싸다고 무조건 갈아타는 게 이득은 아닙니다.
막히는 조건 4가지 — 공식 문서에 다 나와 있습니다
비용도 싸고 정확도도 높은데, 그럼 바로 쓰면 되는 거 아닌가 싶지만 실제로는 아닙니다. 공식 문서와 초기 사용 후기를 교차해서 보니 지금 당장 프로덕션에 넣기 어려운 상황이 뚜렷하게 4가지 나옵니다.
❶ ADK(Agent Development Kit)와 호환되지 않습니다
구글 자체 에이전트 프레임워크인 ADK가 이 모델을 지원하지 않습니다. GitHub 공개 이슈로 등록돼 있고, 아직 수정 일정이 공개되지 않은 상태입니다. ADK 기반으로 에이전트를 이미 구축하고 있다면 Raw API로 직접 붙이거나, 수정될 때까지 기다려야 합니다.
❷ WebSocket 1007 오류가 발생하는 케이스가 있습니다
LiveKit 연동 시 특정 페이로드 타입에서 WebSocket 연결이 1007 에러로 끊기는 현상이 초기 사용자들 사이에서 보고됐습니다. 수정 PR은 올라와 있지만 아직 병합되지 않은 상태입니다. LiveKit을 인프라로 쓸 계획이라면 지금 당장 안정적인 환경을 보장하기 어렵습니다.
❸ 모델이 먼저 말을 꺼낼 수 없습니다
현재 모델은 사용자의 발화에 반응하는 구조입니다. “10초 동안 아무 말도 없으면 ‘아직 거기 계세요?’라고 먼저 물어봐”와 같은 선제 발화 기능은 없습니다. 고객이 침묵하거나 잠시 생각하는 상황에서 에이전트가 자연스럽게 끊어줘야 하는 시나리오라면 별도 로직을 직접 구현해야 합니다.
❹ 긴 대화에서 컨텍스트가 유실됩니다
실제 사용 후기 기준으로 약 15~20분이 지나면 대화 흐름이 흐릿해지기 시작한다는 보고가 여럿 나왔습니다. 128K 컨텍스트 창이 있지만, 장시간 음성 세션에서의 상태 관리를 안정적으로 처리하는 공식 가이드라인이 아직 없습니다. 장시간 고객 응대나 복잡한 멀티턴 세션을 기획 중이라면 이 부분을 먼저 테스트해야 합니다.
이 4가지는 구글이 공식적으로 인정한 제한이거나, 실제 개발자 커뮤니티에서 재현된 이슈입니다. “프리뷰”라는 표시가 붙은 만큼 이유 없이 바뀌거나 추가될 수 있고, 공식 해결 일정도 아직 공개되지 않았습니다.
💡 공식 발표와 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다
관점 ①: “싸다”는 게 기존 방식 대비 절반이 아닌 거의 3분의 1일 수 있습니다
관점 ②: “음성 에이전트 = Gemini 3.1 Flash Live”로 묶이면 안 되는 이유가 있습니다
ElevenLabs나 Voxtral TTS 같은 툴과 자꾸 비교되는데, 이건 카테고리 자체가 다릅니다. ElevenLabs는 텍스트를 음성으로 변환하는 TTS 특화 툴이고, Gemini 3.1 Flash Live는 듣고·판단하고·말하는 전 과정을 다 처리합니다. 고품질 보이스오버나 목소리 클로닝이 필요한 경우에는 오히려 ElevenLabs나 Voxtral이 더 맞는 선택입니다. 모든 음성 작업에 이 모델을 갖다 붙이면 오히려 과도하게 복잡해집니다.
지금 Gemini 3.1 Flash Live가 가장 빛나는 구간은 “실시간으로 말을 듣고, 외부 API를 호출하고, 그 결과를 음성으로 전달하는” 과정입니다. 그 이외의 음성 작업이라면 더 단순하고 저렴한 선택지가 있습니다.
어떤 상황에서 쓰면 딱 맞는가
이 모델이 특히 잘 맞는 케이스를 공식 사례와 개발자 후기를 기반으로 정리하면 이렇습니다. 음식 주문 대행, 예약 처리, 간단한 고객 문의 응대처럼 10분 이내 단발성 통화에서 외부 API를 2~3번 호출하는 구조입니다. 일본의 한 클리닉이 기존 OpenAI Realtime API를 이미 Gemini 3.1 Flash Live로 교체했는데, 이유가 “한국어·일본어 인식 정확도가 더 높고, 비용이 줄었다”는 것이었습니다. (출처: findskill.ai, 2026.03.29)
반면 지금 쓰면 리스크가 큰 상황도 있습니다. 30분 이상 이어지는 상담, 복잡한 상태를 계속 이어가야 하는 멀티턴 세션, ADK 기반 파이프라인, 그리고 LiveKit을 이미 쓰고 있는 프로덕션 환경입니다. 프리뷰 기간인 만큼 API 스펙이 바뀔 가능성도 열어두어야 합니다.
Search Live에서는 이미 200개 이상의 국가에서 Gemini 3.1 Flash Live가 기본 모델로 동작 중입니다. Gemini 앱을 쓴다면 지금 이 모델이 이미 적용된 상태입니다. 개발자용 API는 Google AI Studio → Live 탭에서 API 키만 있으면 무료 티어로 바로 테스트할 수 있습니다.
Q&A
마치며
그런데 출시 3일 만에 이미 ADK 비호환, WebSocket 오류, 선제 발화 불가, 장시간 컨텍스트 유실이라는 4가지 한계가 현장에서 확인됐습니다. 프리뷰 딱지가 붙은 모델을 지금 당장 프로덕션에 올리는 건 리스크입니다.
지금 쓰기 좋은 타이밍은 “테스트 환경에서 실제 통화 시나리오를 돌려보고 함수 호출 정확도를 직접 재보는 것”입니다. 그 결과가 서비스 요구사항을 충족하면, 안정 버전(GA) 전환 시점을 기다려 적용하는 게 가장 현실적인 접근입니다.
📎 본 포스팅 참고 자료
- Google Blog — Gemini 3.1 Flash Live 공식 발표 (blog.google, 2026.03.26)
- Google AI Developer Pricing 공식 페이지 (ai.google.dev/gemini-api/docs/pricing)
- Google AI Changelog (ai.google.dev/gemini-api/docs/changelog)
- Google DeepMind 모델 카드 — Gemini 3.1 Flash Live (deepmind.google)
- findskill.ai — Gemini 3.1 Flash Live 비용 및 한계 분석 (findskill.ai, 2026.03.29)
본 포스팅은 2026년 3월 30일 기준 공개된 공식 자료를 바탕으로 작성됐습니다. Gemini 3.1 Flash Live는 현재 공개 프리뷰(Preview) 상태로, 본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있습니다. 최신 정보는 반드시 공식 문서를 통해 확인하세요.











댓글 남기기