📅 2026.03.26 기준 / 프리뷰 버전
Gemini Live API

Gemini 3.1 Flash Live, 써봤더니 이게 빠져 있었습니다

2026년 3월 26일, 구글이 Gemini 3.1 Flash Live를 공개했습니다. 함수 호출 정확도 90.8%, 응답 시간 최소 0.96초. 숫자만 보면 음성 AI의 새 기준처럼 보입니다. 그런데 막상 API 문서를 열어 보면 얘기가 좀 달라집니다. 세션은 15분 이후 불안정해지고, 구글 자체 프레임워크(ADK)와도 아직 호환이 안 됩니다. 좋은 점과 아직 안 되는 것, 둘 다 확인했습니다.

90.8%

함수 호출 정확도

0.96초

최소 응답 시간

90+

지원 언어

$0.29

10분 통화 비용(유료)

음성 AI가 작동하는 방식이 이번에 진짜 바뀌었습니다

결론부터 말씀드리면, 이번 변화는 단순 성능 개선이 아닙니다. 기존 음성 AI는 세 단계를 거쳤습니다. 사람이 말하면 → 음성을 텍스트로 변환하고(STT) → LLM이 텍스트로 생각하고 → 텍스트를 다시 음성으로 바꿔주는(TTS) 구조였습니다. 이 과정에서 각 단계마다 0.5~1초씩 지연이 누적됩니다.

Gemini 3.1 Flash Live는 이 세 단계를 하나로 합쳤습니다. 오디오를 그대로 받아서, 내부에서 처리하고, 오디오로 바로 내보냅니다. 음성 입력 100만 토큰당 $3.00, 출력 100만 토큰당 $12.00로 책정된 유료 구조지만, 현재 프리뷰 단계에서는 무료로 사용할 수 있습니다. (출처: Google AI Developer Pricing, 2026.03.30 기준)

💡 공식 발표와 실제 구조를 함께 놓고 보면 이런 차이가 나옵니다
Google DeepMind 모델 카드에 따르면, Gemini 3.1 Flash Live의 입력은 오디오·이미지·비디오·텍스트를 받으며, 출력은 오디오와 텍스트입니다. 토큰 컨텍스트 윈도는 128K, 출력 토큰은 최대 64K입니다. 중요한 건 이 모델이 Gemini 3 Pro를 기반으로 설계됐다는 점입니다. 즉, Flash 계열 이름을 달고 있지만 실제 추론 기반은 Pro급입니다.

이 구조 변화 때문에 음성 안에 담긴 톤(피치, 속도, 망설임, 짜증 섞인 말투)을 텍스트 변환 없이 직접 감지할 수 있게 됩니다. 기존 STT → LLM → TTS 방식에선 “아… 그러니까…”라는 발화가 텍스트로 바뀌면 맥락이 사라지지만, 이번 모델은 그 주저함 자체를 오디오로 받아 처리합니다.

▲ 목차로 돌아가기

빠르다는 수치, 그런데 정확도와는 교환 관계입니다

공식 블로그가 강조하는 수치는 두 가지입니다. ComplexFuncBench Audio에서 함수 호출 정확도 90.8%, BigBench Audio에서 95.9%. 이 수치는 독립 기관(Scale AI, Artificial Analysis)이 측정한 것으로, 구글 자체 평가가 아닙니다. (출처: Google DeepMind Model Card, 2026.03.26)

벤치마크	Gemini 3.1 Flash Live	GPT-4o Realtime	이전 모델 (2.5 Flash)
ComplexFuncBench Audio (함수 호출)	90.8%	약 78%	71.5%
BigBench Audio (최대 사고 모드)	95.9%	미공개	미공개
Audio MultiChallenge (사고 모드)	36.1%	미공개	미공개
최소 응답 시간	0.96초	약 1.5초	약 2초
BigBench Audio 응답 시간 (최고 사고)	2.98초	—	—

💡 빠름과 정확함 사이에서 고르는 구조입니다
응답 속도가 0.96초인 경우는 사고(thinking) 모드를 끈 상태입니다. BigBench Audio 기준 최고 정확도(95.9%)를 내려면 사고 모드를 켜야 하고, 그때 응답 시간은 2.98초로 늘어납니다. 즉, 가장 정확한 답변과 가장 빠른 응답은 동시에 선택할 수 없습니다. 실제 구축 시 어떤 균형점을 잡을지 미리 결정해야 합니다.

프로덕션 환경에서 AI 전화 상담을 구축한다면, 단순 FAQ 응대는 사고 모드 없이 0.96초로 운영하고, 예약 변경 같은 다단계 작업은 사고 모드를 켜 2.98초로 처리하는 식으로 나눠 쓰는 구조가 현실적입니다.

▲ 목차로 돌아가기

비용이 90% 줄었다는 말, 계산해 봤습니다

여러 곳에서 “기존 대비 90% 비용 절감”이라는 말이 나옵니다. 이게 어디서 나온 수치인지 직접 계산해 봤습니다.

기존 3단계 스택 (Deepgram + GPT-4o + ElevenLabs 기준):
STT 약 $0.004/분 + LLM 약 $0.10/분 + TTS 약 $0.04/분 = 약 $0.14/분

Gemini 3.1 Flash Live 유료 구조 (공식 가격표 기준):
오디오 입력 $3.00/100만 토큰, 출력 $12.00/100만 토큰. 음성은 초당 약 25토큰 소비 기준으로, 1분 통화(양방향 각 30초) 시 입력 약 750토큰, 출력 약 750토큰 = 약 $0.0023 + $0.009 = 약 $0.011/분 (출처: Google AI Developer Pricing, 2026.03.30)

항목	기존 3단계 스택	Gemini 3.1 Flash Live
분당 모델 비용	약 $0.14	약 $0.011
10분 통화 비용	약 $1.40	약 $0.11~$0.29*
전화 연결(SIP 트렁킹) 별도	포함 안 됨	포함 안 됨
현재 프리뷰 무료	해당 없음	✅ 무료 (제한 있음)

* 10분 통화 비용 $0.11은 모델 비용만, $0.29는 SIP 트렁킹(약 $0.009/분 추가) 포함 추정치. (출처: Reddit r/B2BSaaS 분석, 2026.03.28 / Google AI Pricing, 2026.03.30)

💡 90% 절감 계산식을 그대로 믿으면 안 되는 이유가 있습니다
SIP 트렁킹, 웹소켓 세션 관리, 통화 녹음 컴플라이언스 비용은 Gemini API 요금에 포함되지 않습니다. 실제 프로덕션 환경에서는 모델 비용 이외 인프라 비용이 추가됩니다. 모델만 보면 약 92% 절감이지만, 전체 스택으로 보면 약 60~75% 수준으로 봐야 현실적입니다.

▲ 목차로 돌아가기

200개국 지원이라는 말 뒤의 조건

이번 출시와 함께 구글은 Search Live를 200개국 이상으로 확대했습니다. Gemini 3.1 Flash Live가 다국어 처리를 기본으로 탑재했기 때문이라고 공식 블로그에 나와 있습니다. (출처: Google Blog, 2026.03.26)

그런데 API 공식 문서를 보면 “70개 지원 언어”라고 나옵니다. 공식 블로그에선 “90개 이상”이라는 수치를 씁니다. 이 차이는 Gemini Live API 기반 개발자용(70개)과 Gemini Live/Search Live 소비자 앱(90개 이상)의 범위가 다르기 때문입니다. API로 직접 구축할 때는 70개 언어 기준으로 잡아야 합니다. (출처: Google AI Developer Docs, Live API, 2026.03.30)

💡 공식 채널에 따라 숫자가 다릅니다
한국어는 API 지원 70개 언어에 포함됩니다. 다만 구글이 언어 목록 전체를 별도 문서로 공개하지 않았습니다. 한국어 음성 인식 정확도에 대한 독립 벤치마크도 아직 없는 상태입니다. 일본에서 실제 사용한 팀이 “음성 인식 정확도가 OpenAI Realtime API보다 낫다”는 후기를 남겼지만, 한국어 기준 비교 수치는 공개된 것이 없습니다.

Gemini Live 앱에서 이번 모델은 대화 맥락 유지 길이가 이전 모델 대비 2배 늘었습니다. 긴 브레인스토밍이나 복잡한 상담 중에도 앞 대화를 유지한다는 뜻인데, 이 수치는 구글이 직접 발표한 것입니다. (출처: Google Blog, 2026.03.26) 긴 대화 세션을 전제로 구축할 때 체감상 차이가 납니다.

▲ 목차로 돌아가기

지금 당장 쓰면 안 되는 상황이 있습니다

솔직히 말하면, 지금 이 모델을 프로덕션에 투입하기 어려운 조건이 몇 가지 있습니다. 공식 문서에 그대로 나와 있는 것들입니다.

⚠ 지금 주의해야 할 4가지 제약

세션 컨텍스트 128K 한계: 세션이 15~20분 이상 이어지면 컨텍스트가 꽉 차서 세션이 종료됩니다. Firebase AI Logic 공식 문서에 “128K 초과 시 연결 종료 알림 후 해제”라고 명시돼 있습니다. (출처: Firebase AI Logic Docs, 2026.03.30)
ADK(Agent Development Kit) 미호환: 구글 자체 에이전트 프레임워크가 아직 이 모델을 지원하지 않습니다. GitHub 이슈로 등록돼 있으며, 수정 시점은 아직 공개되지 않았습니다.
비동기 함수 호출 불가: 도구를 호출할 때 모델이 잠시 멈추고 결과를 기다립니다. 사람과 대화할 때처럼 “잠깐요, 확인해 볼게요…”라고 말하면서 동시에 API를 쏘는 것은 아직 안 됩니다.
선제적 발화 불가: 사용자가 말을 끊으면 응답하지만, 침묵을 감지해서 먼저 말을 거는 기능은 없습니다. “아직 거기 계세요?”같은 프롬프팅이 안 됩니다.

LiveKit 환경에서 WebSocket 1007 에러가 발생한다는 리포트도 여럿 올라와 있습니다. 특정 페이로드 타입을 거부하는 현상으로, 수정 풀리퀘스트는 올라와 있지만 아직 머지되지 않았습니다. 지금 당장 LiveKit 기반으로 구축할 계획이라면 이 부분을 먼저 확인해야 합니다.

▲ 목차로 돌아가기

GPT-4o Realtime과 실제로 어떻게 다릅니까

두 모델 모두 오디오-to-오디오 방식입니다. 가장 눈에 띄는 차이는 비용과 함수 호출 정확도입니다.

항목	Gemini 3.1 Flash Live	GPT-4o Realtime
시간당 오디오 입력 비용	$0.35 (약 500원)	약 $2.50
시간당 오디오 출력 비용	$1.40	약 $10
함수 호출 정확도	90.8%	약 78%
지원 언어(API)	70개	약 50개
비디오 스트리밍 지원	✅ (~1FPS)	❌
컨텍스트 윈도 (세션)	128K	128K
SynthID 워터마크	✅ 자동 삽입	❌
현재 무료 제공	✅ (프리뷰)	❌

비용은 시간당 $1.75 대 $12.50 수준입니다. 동일한 10분 통화를 GPT-4o Realtime으로 처리하면 약 $2.08, Gemini 3.1 Flash Live(유료 전환 후)로 처리하면 약 $0.29입니다. 모델 비용만 비교하면 약 7배 차이입니다. 다만, GPT-4o Realtime은 이미 프로덕션 안정성이 검증된 상태이고 Gemini 3.1 Flash Live는 아직 프리뷰입니다. 안정성 대 비용, 트레이드오프가 분명합니다.

💡 SynthID 워터마크가 실제로 의미하는 것
Gemini 3.1 Flash Live가 생성하는 모든 오디오에는 SynthID 워터마크가 자동 삽입됩니다. 사람 귀로는 들리지 않지만, 해당 오디오가 AI가 만든 것인지 식별하는 데 쓰입니다. 공공 민원 처리나 의료 상담 같은 영역에서 AI 생성 음성 식별이 법적 요건이 될 경우, 이 기능이 유의미한 차별점이 됩니다. (출처: Google DeepMind Model Card, 2026.03.26)

▲ 목차로 돌아가기

Q&A

Q1. Gemini 3.1 Flash Live는 지금 당장 무료로 쓸 수 있나요?

네, 현재 프리뷰 단계에서는 Google AI Studio를 통해 무료로 테스트할 수 있습니다. 단, 프리뷰 모델은 일반 모델보다 요청 한도(Rate Limit)가 더 낮습니다. 2026년 3월 29일 기준으로 구글 공식 가격표에 “Free of charge”로 표시돼 있습니다. (출처: Google AI Developer Pricing, 2026.03.30) 프리뷰 종료 후 유료 전환 시점은 아직 공개되지 않았습니다.

Q2. 한국어도 제대로 지원합니까?

공식 API 지원 언어 70개에 한국어가 포함됩니다. 다만, 한국어 음성 인식 정확도를 별도로 측정한 공개 벤치마크는 아직 없습니다. 일본어 기준에서 “비즈니스 사용 시 OpenAI Realtime API보다 낫다”는 실사용 후기가 있지만, 한국어에 그대로 적용되는 근거는 없습니다. 직접 테스트해 보는 것이 가장 정확합니다.

Q3. 세션이 길어지면 어떻게 됩니까?

128K 토큰 컨텍스트 윈도가 가득 차면 세션이 종료됩니다. Firebase AI Logic 공식 문서에는 “연결 종료 전 알림이 먼저 옵니다”라고 나와 있지만, 그 이후 자동 재연결은 지원하지 않습니다. 실사용 환경에서 보통 15~20분 내외에서 이 한계에 도달하는 것으로 알려져 있습니다. 장시간 통화가 필요한 서비스라면 세션 분리와 컨텍스트 재주입 로직을 별도로 구현해야 합니다.

Q4. n8n이나 Make 같은 자동화 도구와 연동됩니까?

현재 공식 지원 파트너는 LiveKit, Pipecat, Fishjam, Voximplant, Stream입니다. n8n이나 Make와의 직접 연동은 아직 공식 지원이 없습니다. WebSocket 기반으로 직접 구현하거나, LiveKit을 중간에 두고 연동하는 방식이 현재로서는 현실적인 경로입니다.

Q5. 이 모델이 생성한 음성을 실제로 사람 목소리와 구분할 수 있나요?

Ars Technica가 출시 직후 기사에서 “AI 전화를 받고 있다는 사실을 알기 어려워진다”는 표현을 썼습니다. (출처: Ars Technica, 2026.03.26) 다만, 구글은 모든 출력 오디오에 SynthID 워터마크를 자동 삽입해 AI 생성 여부를 식별할 수 있도록 했습니다. 일반 청취로는 구분이 어렵지만, 기술적 감지는 가능합니다.

▲ 목차로 돌아가기

마치며

Gemini 3.1 Flash Live는 음성 AI에서 ‘세 개의 모델을 붙여쓰는 방식’을 끝내는 전환점이 될 수 있습니다. 함수 호출 90.8%, 0.96초 응답, 시간당 $1.75라는 수치는 지금까지 나온 오디오 모델 중 가장 설득력 있는 조합입니다.

다만 아직 프리뷰입니다. ADK 미호환, 15분 세션 한계, 비동기 함수 호출 불가, LiveKit WebSocket 버그 — 이것들은 공식 문서에 나온 사실이고, 지금 당장 대규모 콜센터에 투입하기 어려운 이유입니다.

솔직히 말하면, 지금 단계에서 가장 가치 있는 행동은 GA(정식 출시) 전에 테스트 환경을 구축하고 한계점을 직접 확인해 두는 것입니다. 무료 프리뷰 기간이 언제 끝날지 구글이 공식 답변을 내놓지 않은 상태입니다. 지금이 비용 없이 검증할 수 있는 시간입니다.

📚 본 포스팅 참고 자료

Google Blog — Gemini 3.1 Flash Live 공식 발표 (blog.google)
Google DeepMind — Gemini 3.1 Flash Live Model Card (deepmind.google)
Google AI Developer — Gemini API 가격표 (ai.google.dev/pricing)
Google AI Developer — Live API 공식 문서 (ai.google.dev/live)
Firebase AI Logic — Live API 한계·스펙 문서 (firebase.google.com)

본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. Gemini 3.1 Flash Live는 현재 프리뷰 버전으로, 정식 출시(GA) 이전에 스펙·가격·지원 언어가 변경될 수 있습니다. 최신 정보는 Google AI Studio 공식 문서에서 직접 확인하시기 바랍니다.

Gemini 3.1 Flash Live, 써봤더니 이게 빠져 있었습니다

음성 AI가 작동하는 방식이 이번에 진짜 바뀌었습니다

빠르다는 수치, 그런데 정확도와는 교환 관계입니다

비용이 90% 줄었다는 말, 계산해 봤습니다

200개국 지원이라는 말 뒤의 조건

지금 당장 쓰면 안 되는 상황이 있습니다

GPT-4o Realtime과 실제로 어떻게 다릅니까

Q&A

마치며

댓글 남기기응답 취소

최신 글

카테고리

Tags

Gemini 3.1 Flash Live, 써봤더니 이게 빠져 있었습니다

Gemini 3.1 Flash Live, 써봤더니 이게 빠져 있었습니다

음성 AI가 작동하는 방식이 이번에 진짜 바뀌었습니다

빠르다는 수치, 그런데 정확도와는 교환 관계입니다

비용이 90% 줄었다는 말, 계산해 봤습니다

200개국 지원이라는 말 뒤의 조건

지금 당장 쓰면 안 되는 상황이 있습니다

GPT-4o Realtime과 실제로 어떻게 다릅니까

Q&A

마치며

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기