Gemini 3.1 Flash Live Preview
공식 출시 당일
제미나이 3.1 플래시 라이브,
4가지로 직접 확인했습니다
“구글 최고품질 음성 모델”이라는 문구 뒤에 공식 문서에서 확인한 수치는 달랐습니다. 벤치마크 2개를 나란히 놓으면 전혀 다른 그림이 나옵니다.
제미나이 3.1 플래시 라이브, 도대체 뭐가 다른가요?
구글이 2026년 3월 26일 제미나이 3.1 플래시 라이브(Gemini 3.1 Flash Live)를 정식 공개했습니다. 공식 블로그에서는 “구글 최고품질 오디오·음성 모델”이라고 소개하고 있는데, 이게 말 그대로 실시간 대화 전용으로 설계된 음성 모델이라는 점이 핵심입니다. 기존 제미나이 모델들이 텍스트 중심이었다면, 이 모델은 처음부터 음성 입출력을 위해 만들어졌습니다.
공식 모델 카드에 따르면 이 모델의 기반 아키텍처는 제미나이 3 프로(Gemini 3 Pro)입니다. (출처: Google DeepMind 모델 카드, 2026.03.26) 그러니까 상위 모델의 두뇌를 쓰되, 실시간 오디오 처리에 최적화된 형태로 재조립한 버전이라고 보면 됩니다.
입력 가능한 형식은 오디오, 이미지, 영상, 텍스트로 최대 128K 토큰 컨텍스트 윈도우를 지원하고, 출력은 오디오와 텍스트로 64K 토큰까지 생성할 수 있습니다. 기존 2.5 플래시 네이티브 오디오 모델 대비 음조(pitch)와 속도(pace) 인식이 훨씬 정교해졌다는 게 공식 설명입니다.
💡 공식 발표문과 모델 카드를 나란히 놓고 보면, 이 모델이 “최고 품질”을 주장하는 벤치마크와 실제 대화 환경에서의 성능 간에 꽤 의미 있는 차이가 있다는 게 보입니다. 아래 섹션에서 구체적으로 짚어봤습니다.
1위 벤치마크 뒤에 있는 수치 하나 — 왜 중요한가
구글 공식 블로그에서 가장 먼저 내세운 숫자는 ComplexFuncBench Audio 90.8%입니다. (출처: Google 공식 블로그, 2026.03.26) 이 벤치마크는 다단계 함수 호출 능력, 즉 여러 제약 조건이 있는 복잡한 작업을 음성으로 처리하는 능력을 측정합니다. 항공권 예약 같은 시나리오에서 여러 API를 순차적으로 호출하는 식의 작업이죠. 이 부분에서는 이전 모델 대비 1위입니다.
그런데 Scale AI가 운영하는 AudioMultiChallenge에서는 36.1%에 그칩니다. (출처: Google 공식 블로그, 2026.03.26) 이 벤치마크는 실제 오디오 환경에서의 대화 중단, 망설임, 장기 추론 능력을 측정합니다. 아스테크니카가 지적한 대로, 실시간 대화를 목적으로 만들어지지 않은 일반 오디오 모델들은 이 테스트에서 50%를 넘기기도 합니다. (출처: Ars Technica, 2026.03.26)
| 벤치마크 | 3.1 Flash Live 점수 | 비고 |
|---|---|---|
| ComplexFuncBench Audio | 90.8% | 실시간 오디오 모델 중 1위 |
| BigBench Audio | 공식 공개 | 음성 이해·장면 인식 종합 |
| AudioMultiChallenge (Scale AI) | 36.1% | 비실시간 모델 50%+ 대비 낮음 |
두 숫자를 함께 보면, 이 모델이 구조화된 작업 수행에는 탁월하지만 잡음 섞인 자연스러운 대화 환경에서는 아직 한계가 있다는 걸 알 수 있습니다. 실시간 음성 에이전트를 개발하려는 분들이라면 이 차이를 용도 설계에 반드시 반영해야 합니다.
💡 “실시간 음성 모델 1위”가 “모든 상황에서 1위”를 의미하지 않습니다. 구글이 공개한 두 벤치마크 점수 차이(90.8% vs 36.1%)가 이걸 그대로 보여줍니다.
서치 라이브 전세계 확대 — 한국에서 실제로 쓰는 방법
3.1 플래시 라이브가 출시된 날 구글은 서치 라이브(Search Live)를 200개 이상 국가·지역에 동시 확대했습니다. (출처: Google 검색 공식 블로그, 2026.03.26) 한국도 포함됩니다. AI 모드가 지원되는 모든 언어와 지역에서 서치 라이브를 쓸 수 있고, 90개 이상의 언어로 실시간 음성 대화가 가능합니다.
사용 방법은 생각보다 단순합니다
안드로이드 또는 iOS 구글 앱을 열면 검색창 아래에 ‘라이브’ 아이콘이 보입니다. 탭 하면 AI 모드에서 실시간 음성 대화가 시작됩니다. 카메라를 켜면 화면에 보이는 물체에 대해 직접 질문도 할 수 있습니다. 구글 렌즈를 쓰는 중이라면 화면 하단의 ‘라이브’ 옵션을 눌러도 바로 연결됩니다.
이게 핵심입니다. 구글 앱 업데이트가 적용되어 있어야 하고, AI 모드가 계정에서 활성화되어 있어야 합니다. 2025년 9월부터 한국어 AI 모드가 지원됐고, 이번 서치 라이브 확대는 그 연장선입니다. 별도 가입이나 베타 신청 없이 바로 쓸 수 있습니다.
💡 “200개국 확대”라는 숫자보다 중요한 건, 이 기능이 AI 모드 활성화 여부에 연동된다는 점입니다. 구글 앱 최신 버전이 아니라면 라이브 아이콘 자체가 뜨지 않습니다.
개발자용과 일반 사용자용이 완전히 다른 이유
이 모델은 실질적으로 세 가지 다른 경로로 제공됩니다. 표면적으로는 하나의 모델이지만, 접근 방법과 경험 자체가 전혀 다릅니다.
구글 AI 스튜디오의 Gemini Live API를 통해 프리뷰 접근. 함수 호출, 에이전트 설계, 음성 바이브코딩 시연 등 고급 기능 사용 가능. 모델 ID: gemini-3.1-flash-live-preview
고객 경험용 제미나이 엔터프라이즈(Gemini Enterprise for Customer Experience) 전용. 버라이즌·홈디포 등이 콜센터 자동화에 이미 적용 중.
구글 앱의 서치 라이브와 제미나이 라이브 앱을 통해 접근. API 설정 없이 앱만 있으면 됩니다. 단, AI 모드 활성화 필요.
개발자용에서 말하는 “복잡한 작업 수행”과 일반 사용자가 앱에서 경험하는 “빠른 음성 답변”은 같은 모델에서 나오지만, 실제로 체감하는 기능의 깊이가 다릅니다. 공식 문서에 별도로 나와 있는 구분이기도 합니다.
SynthID 워터마크가 있어도 사람으로 착각할 수 있는 이유
구글은 이 모델이 생성하는 모든 오디오에 신스ID(SynthID) 워터마크를 적용한다고 공식 발표했습니다. (출처: Google 공식 블로그, 2026.03.26) 사람 귀로는 들리지 않는 방식으로 오디오 파형 안에 직접 삽입되는 방식입니다. AI가 생성한 음성임을 기계적으로 식별할 수 있게 하는 장치입니다.
그런데 아스테크니카가 정확히 짚은 문제가 있습니다. SynthID는 “AI 음성을 원본인 것처럼 속이려는 시도”는 탐지할 수 있지만, 실시간 전화 통화 중에 상대방이 AI와 대화하고 있다는 사실 자체를 알려주지는 않습니다. (출처: Ars Technica, 2026.03.26) 버라이즌과 홈디포가 이 모델을 콜센터에 도입한 것처럼, 기업 고객 상담에서 이미 쓰이고 있는데도 통화 상대가 AI인지 아닌지를 실시간으로 인지하기 어렵습니다.
⚠ 사용자 관점에서 보면: SynthID 워터마크는 사후 탐지 도구입니다. 대화 중 실시간으로 “지금 AI와 통화하고 있음”을 알려주는 기능이 아닙니다. 구글이 이 이유를 공개적으로 설명하지 않은 부분입니다.
음성 AI의 자연스러움이 높아질수록 탐지 가능성이 아닌 고지 의무 문제가 더 중요해집니다. 이건 기술 한계가 아니라 정책과 규제 영역의 문제인데, 현재 공식 문서에서 별도 답변을 내놓지 않은 부분입니다.
실제로 어디서 어떻게 쓸 수 있나요?
현재(2026.03.28 기준) 제미나이 3.1 플래시 라이브를 경험할 수 있는 경로는 크게 네 가지입니다. 각 경로마다 접근 조건과 기능 범위가 다릅니다.
구글 앱 (서치 라이브)
Android/iOS, 무료, AI 모드 활성화 필요. 구글 앱 최신 버전 업데이트 필수.
제미나이 라이브 앱
Gemini 앱 내 Live 탭. 이전 모델 대비 응답 속도 향상, 대화 맥락 유지 시간 2배.
구글 AI 스튜디오
개발자용 프리뷰. ai.studio/live에서 접근. 구글 계정만 있으면 무료 테스트 가능.
엔터프라이즈 CX
기업 고객 경험 플랫폼 전용. 별도 계약 필요. 버라이즌·홈디포 등 이미 도입.
제미나이 라이브에서 달라진 점 — 수치로 확인
공식 발표에 따르면 제미나이 라이브 앱에서 이 모델을 쓰면 대화 흐름을 이전 모델 대비 두 배 더 길게 유지할 수 있습니다. (출처: Google 공식 블로그, 2026.03.26) 브레인스토밍처럼 긴 맥락이 필요한 대화에서 중간에 끊기는 현상이 줄어든다는 뜻입니다. 응답 속도도 빨라졌다는 게 공식 설명이지만, 구체적인 수치(ms 단위 지연 시간)는 이 시점에서 공개되지 않았습니다.
Q&A — 5가지 자주 묻는 질문
마치며 — 총평
제미나이 3.1 플래시 라이브는 분명히 실시간 음성 AI 쪽에서 의미 있는 진전입니다. ComplexFuncBench Audio 90.8%라는 수치는 구조화된 음성 에이전트 개발 분야에서 실제로 쓸 수 있는 모델이 나왔다는 신호입니다. 서치 라이브 200개국 확대도, 구글 검색이 텍스트에서 실시간 음성 멀티모달로 이동하는 흐름의 가속이라는 점에서 흘려보낼 뉴스가 아닙니다.
다만 AudioMultiChallenge 36.1%는 솔직히 말해 아직 갈 길이 있다는 신호이기도 합니다. “사람처럼 말한다”는 표현이 마케팅 언어로는 효과적이지만, SynthID가 사후 탐지 도구에 불과하다는 점, AI와 대화하는지를 통화 중에 알 방법이 없다는 점은 기술 성능 이전에 정책과 사용자 신뢰의 문제로 옮겨가고 있습니다.
일반 사용자라면 일단 구글 앱을 업데이트하고 AI 모드를 켜고 서치 라이브를 써보는 것만으로 충분합니다. 개발자라면 AI 스튜디오 프리뷰에서 ComplexFuncBench가 측정한 시나리오, 즉 여러 API를 순차 호출하는 음성 에이전트 설계에 이 모델이 얼마나 잘 맞는지 직접 테스트해보는 게 가장 빠릅니다.
📎 본 포스팅 참고 자료
- 구글 한국어 공식 블로그 — 제미나이 3.1 플래시 라이브 (2026.03.26)
- Google 공식 블로그 — Gemini 3.1 Flash Live (영문, 2026.03.26)
- Google DeepMind — Gemini 3.1 Flash Live 모델 카드 (2026.03.26)
- Gemini API 공식 릴리스노트 (2026.03.26 업데이트)
- Google 검색 공식 블로그 — Search Live 글로벌 확대 (2026.03.26)
- Ars Technica — Gemini 3.1 Flash Live 한계 분석 (2026.03.26)
※ 본 포스팅은 2026년 3월 28일 기준으로 작성되었습니다. Gemini 3.1 Flash Live는 현재 프리뷰 단계이며, 이후 서비스 정책·UI·기능·요금 등이 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으므로, 최신 내용은 구글 공식 페이지에서 반드시 확인하시기 바랍니다.











댓글 남기기