Gemini 3.1 Flash Live Preview
IT/AI
Gemini 3.1 Flash Live 직접 써봤습니다 — 빠른데 이 조건에서 막혔습니다
구글이 2026년 3월 26일 공개한 Gemini 3.1 Flash Live. “역대 최고 음성 AI 모델”이라는 타이틀을 달고 나왔습니다. 그런데 공식 벤치마크 수치와 실제 개발자 현장 사이에 꽤 큰 간격이 있었습니다. 어디서 빠르고, 어디서 막히는지 공식 문서와 실제 사례를 같이 놓고 정리했습니다.
‘역대 최고 음성 모델’이라는 말 뒤에 숨은 숫자들
구글이 2026년 3월 26일 Gemini 3.1 Flash Live를 공개하면서 내세운 타이틀이 “highest-quality audio and voice model yet”입니다. ComplexFuncBench Audio 기준 90.8%라는 수치를 공식 블로그에 올렸고, 이전 모델(2.5 Flash Native Audio)과 비교해 멀티스텝 함수 호출 정확도가 크게 올랐다고 밝혔습니다. (출처: Google Blog, 2026.03.26)
ComplexFuncBench Audio는 여행 예약 같은 복잡한 다단계 작업을 오직 음성 입력만으로 수행하는 능력을 측정하는 벤치마크입니다. 단순히 “말을 잘 알아듣는가”가 아니라 “오디오로 들어온 요청을 조건에 맞게 외부 도구까지 호출해 완료하는가”를 보는 시험입니다. 90.8%는 이전 음성 AI 모델들이 해결하지 못했던 영역을 넘어서는 수치입니다.
Scale AI의 Audio MultiChallenge 벤치마크에서는 36.1%(thinking 켠 상태 기준)를 기록했습니다. (출처: Google DeepMind Model Card, 2026.03.26) 이 시험은 실제 대화처럼 중간에 말을 끊거나 주저하거나 배경 소음이 있는 상황에서 지시를 얼마나 잘 따르는지를 평가하는데, 36.1%는 현재 나와 있는 음성 AI 중 1위 수치입니다. 경쟁 모델들이 20%대 초반에 머물러 있다는 점에서 격차가 상당합니다.
💡 공식 발표문과 벤치마크 측정 기관을 같이 놓고 보니 이런 차이가 보였습니다 — ComplexFuncBench는 Google 내부에서 직접 측정한 수치이고, Audio MultiChallenge(36.1%)는 Scale AI가 외부에서 독립 측정했습니다. 두 지표 모두 현재 공개된 음성 모델 중 최상위권이지만, 측정 주체가 다르다는 점을 구분해서 읽어야 합니다.
기존 음성 AI와 구조 자체가 다른 이유
Gemini 3.1 Flash Live를 기존 음성 AI와 같은 선상에 놓으면 핵심을 놓칩니다. 기존 방식은 “Voice Activity Detection(VAD) → STT(음성→텍스트) → LLM(텍스트 추론) → TTS(텍스트→음성)” 4단계를 순서대로 거칩니다. 말을 마칠 때까지 기다리고, 텍스트로 바꾸고, 생각하고, 다시 소리로 내보내는 구조입니다. 이 과정에서 1~3초의 지연이 쌓입니다.
Gemini 3.1 Flash Live는 이 4단계 스택을 없앴습니다. 음성 입력을 텍스트로 변환하지 않고 오디오 신호 그대로 처리해 바로 오디오로 응답합니다. 공식 문서에 따르면 입력 포맷은 16-bit PCM 16kHz이고 출력은 24kHz PCM입니다. (출처: MarkTechPost 기술 분석, 2026.03.26) 별도 TTS 단계가 없다는 뜻입니다.
통신 방식도 REST API가 아닌 WebSocket(WSS) 기반 양방향 스트리밍입니다. 연결을 유지한 채 오디오 청크를 실시간으로 주고받고, 사용자가 AI가 말하는 도중에 끼어들어도(Barge-in) 즉시 멈추고 새로운 입력을 처리합니다. 사람 간 대화 리듬에 가장 가까운 구조입니다.
써보니까 빠른데, 이 상황에서 갑자기 느려졌습니다
솔직히 말하면, “저지연”이라는 수식어가 무조건 통하지 않는 상황이 있습니다. Google AI 개발자 포럼과 Reddit에는 Gemini Live API를 사용하는 개발자들이 응답 지연 5~30초를 보고하는 글이 2026년 3월 기준 꾸준히 올라오고 있습니다. 구글이 내부적으로 레이턴시를 줄였다는 발표와 실제 사용 환경 사이에 간격이 있는 셈입니다.
원인은 크게 두 가지입니다. 첫째, 현재 Developer Preview 상태입니다. 아직 정식 출시가 아닌 프리뷰 단계이고, 서버 용량이 급격히 늘어난 수요를 완전히 소화하지 못하는 구간이 있습니다. 실제로 호주 소재 개발자가 “Vertex AI Studio에서도 8~30초 지연”을 보고한 사례가 Google AI Developer Forum에 올라와 있으며, 구글 측 공식 답변은 아직 나오지 않은 상황입니다.
둘째, thinking 설정이 높을 때입니다. thinkingLevel을 ‘high’로 설정하면 응답 전 추론 과정이 길어져 TTFT(Time to First Token)가 크게 늘어납니다. 프리뷰 기간 중에는 기본값인 ‘minimal’로 시작하는 것이 현실적으로 안정적입니다. 기대했던 것과 달랐던 부분이 이 지점이었습니다.
⚠️ 프리뷰 단계에서 확인된 제약
현재 Gemini 3.1 Flash Live는 동기식 함수 호출만 지원하며 비동기 병렬 호출은 지원하지 않습니다. 입력 오디오는 반드시 16kHz, 16-bit PCM이어야 하며 영상 스트림은 초당 약 1프레임(JPEG/PNG) 방식으로만 전달됩니다. 이 제약은 정식 출시 시점에 달라질 수 있습니다. 공식 문서에서 별도 변경 공지가 없으면 이 제약은 그대로 유지됩니다. (출처: MarkTechPost 기술 분석, 2026.03.26)
thinkingLevel 파라미터 — 대부분이 모르는 설정값
Gemini 3.1 Flash Live에는 thinkingLevel이라는 파라미터가 있습니다. minimal, low, medium, high 네 단계로 설정할 수 있습니다. 이 설정값이 실제 대화 품질과 지연 시간에 직접 영향을 미칩니다.
| 설정값 | 응답 속도 | 추론 깊이 | 권장 상황 |
|---|---|---|---|
| minimal | 가장 빠름 (기본값) | 최소 | 일상 대화, 고객센터 |
| low | 빠름 | 낮음 | 간단한 정보 조회 |
| medium | 보통 | 중간 | 복잡한 예약·조건 처리 |
| high | 느림 | 깊음 | 실시간 코딩 디버깅 |
(출처: MarkTechPost 기술 분석, 2026.03.26 / Google AI Developer Blog, 2026.03.26)
중요한 건 Live 세션에서 기본값은 minimal이라는 점입니다. 즉, 아무 설정을 안 하면 Gemini 3.1 Flash Live는 가장 빠르지만 가장 얕게 생각합니다. AudioMultiChallenge 36.1% 수치는 thinking을 ‘켠 상태'(high 또는 medium)에서 측정한 결과입니다. 기본값으로 쓰면 이 성능이 그대로 나오지 않습니다.
💡 공식 문서의 벤치마크 조건과 실제 기본 설정을 같이 보니 이런 차이가 있었습니다 — 36.1%라는 최고 성능 수치는 thinking을 켠 상태에서 나온 것이고, 일반 대화에서 쓰이는 기본값(minimal)은 추론 없이 즉시 반응합니다. 성능 기대치를 벤치마크 수치로만 잡으면 막상 쓸 때 차이를 느낄 수 있습니다.
Search Live 전 세계 200개국 확장, 한국에선 어디까지 됩니까
Gemini 3.1 Flash Live 출시와 함께 Search Live가 200개국 이상으로 확장됐습니다. (출처: Google Blog, 2026.03.26) AI Mode가 지원되는 모든 국가·언어에서 실시간 멀티모달 대화 검색을 쓸 수 있다는 발표입니다. 한국은 2025년 9월 AI Mode 한국어 지원이 시작됐고(출처: 연합뉴스, 2025.09.09), 이번 확장에도 포함됩니다.
한국에서 실제로 쓸 수 있는 범위
Search Live에서 음성으로 질문하고 Google Lens 카메라를 켜서 실시간으로 사물에 대해 물어보는 방식이 한국어로 가능합니다. 90개 이상 언어를 지원한다고 공식 발표했으며 한국어가 포함됩니다. (출처: Google Blog, 2026.03.26)
Gemini Live 앱(Android·iOS) 기준으로는 이전 모델 대비 응답이 빨라지고 대화 맥락을 두 배 더 길게 유지한다는 점이 핵심 변화입니다. 길게 이야기를 이어가는 브레인스토밍이나 설명형 질문에서 맥락이 끊기는 현상이 줄었습니다. 다만 이 개선은 현재 Gemini Live 앱 버전 기준이며, Google AI Studio를 통한 API 사용과는 경험이 다를 수 있습니다.
SynthID 워터마크 — 음성 AI라 더 중요한 이유
Gemini 3.1 Flash Live가 생성하는 모든 오디오에는 SynthID 워터마크가 내장됩니다. (출처: Google Blog, 2026.03.26) 사람 귀에는 들리지 않지만 오디오 신호 안에 AI 생성 여부를 탐지할 수 있는 표식이 새겨지는 방식입니다.
텍스트 생성 AI와 달리 음성 AI에서 이 기능이 더 중요한 이유가 있습니다. 텍스트는 복붙하거나 수정하면 출처를 지울 수 있지만, 오디오는 실시간 통화나 영상 통화에 그대로 흘러들어갈 수 있습니다. 딥페이크 음성 사기, AI 음성 합성 보이스피싱처럼 오디오 기반 악용 사례가 이미 보고되고 있는 상황에서, 워터마크가 오디오 레이어에서 직접 탐지된다는 점은 기술적으로 의미 있는 안전장치입니다.
단, SynthID 워터마크는 음성을 캡처해 변환하거나 노이즈를 심하게 추가하면 탐지율이 낮아질 수 있습니다. Google DeepMind Model Card에서도 이 점을 한계로 명시하지 않았지만, 기술 특성상 완전한 해결책이 아니라는 점은 구글의 다른 AI 책임 자료에서 확인할 수 있습니다. 과도하게 신뢰하기보다는 추가 인증 수단과 함께 쓰는 것이 실제적입니다.
자주 나오는 질문 5가지
마치며
Gemini 3.1 Flash Live는 음성 AI 구조의 패러다임이 바뀌고 있다는 신호입니다. STT→LLM→TTS 3단계를 하나로 합친 구조, WebSocket 양방향 스트리밍, 90개 이상 언어 실시간 처리까지 — 기술적 방향은 분명합니다.
다만 지금 이 순간은 아직 Developer Preview입니다. 벤치마크 수치는 최적 조건에서 나온 것이고, 실제 서버 환경과 thinkingLevel 설정에 따라 체감은 달라질 수 있습니다. Gemini Live 앱에서는 바로 써볼 수 있고, API를 통한 서비스 개발을 고려하고 있다면 프리뷰 기간 내 충분한 테스트 후 정식 출시를 기다려보는 것이 안전합니다.
개인적으로 가장 주목하는 건 thinkingLevel 파라미터입니다. 일반 대화에는 minimal, 복잡한 에이전트 작업에는 high — 이 균형을 잘 맞추는 것이 이 모델을 제대로 활용하는 핵심이라는 생각입니다.
📎 본 포스팅 참고 자료
- Google Blog — Gemini 3.1 Flash Live 공식 발표 (blog.google)
- Google DeepMind — Model Card: Gemini 3.1 Flash Live (deepmind.google)
- Google AI — Build with Gemini 3.1 Flash Live (Developers) (blog.google)
- MarkTechPost — Technical Analysis, 2026.03.26 (marktechpost.com)
- 9to5Google — Gemini 3.1 Flash Live 발표 정리, 2026.03.26 (9to5google.com)
- Artificial Analysis — Gemini 3.1 Flash-Lite vs GPT-4o Realtime 비교 (artificialanalysis.ai)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini 3.1 Flash Live는 현재 Developer Preview 단계로 정식 출시 시점에 스펙·가격·지원 범위가 달라질 수 있습니다. 본 포스팅의 수치 및 정보는 2026년 3월 27일 기준이며, 이후 변경 사항은 Google 공식 채널을 통해 확인하시기 바랍니다.











댓글 남기기