Gemini 3.1 Flash Live Preview
TECH 테마
Gemini 3.1 Flash Live, 직접 써봤습니다 — 되는 것과 안 되는 것
구글이 “역대 최고 음성 모델”이라고 발표한 Gemini 3.1 Flash Live가 2026년 3월 26일 공개됐습니다. 근데 막상 공식 개발자 문서를 열어보면 ‘아직 지원 안 됨’이라고 적힌 항목이 세 개나 됩니다. 홍보 문구에 나오지 않는 그 부분을 먼저 짚어드립니다.
Gemini 3.1 Flash Live가 뭔지, 30초로 정리하면
Gemini 3.1 Flash Live는 구글이 2026년 3월 26일 공개한 음성 전용 실시간 AI 모델입니다. 기존의 텍스트 중심 AI와 달리 오디오 입력을 실시간으로 받아 오디오로 바로 응답하는 구조입니다. 말 그대로 전화 통화처럼 AI와 대화할 수 있는 모델입니다.
이 모델은 구글 AI 스튜디오(Google AI Studio)의 Gemini Live API를 통해 개발자에게 프리뷰로 공개됐고, 일반 사용자는 Gemini Live 앱과 Search Live(AI Mode)에서 바로 체험할 수 있습니다. (출처: 구글 공식 블로그, 2026.03.26)
구글이 이 모델을 만든 기반은 Gemini 3 Pro입니다. Flash Live는 Gemini 3 Pro의 아키텍처를 공유하면서도 실시간 낮은 지연 시간(low-latency) 처리에 특화됐습니다. 입력 컨텍스트 창은 131,072 토큰(약 128K), 출력은 65,536 토큰(약 64K)입니다. (출처: Gemini API 공식 개발자 문서, 2026.03.26)
벤치마크 수치가 보여주는 것과 보여주지 않는 것
구글 공식 블로그에서 가장 눈에 띄는 수치는 두 가지입니다. ComplexFuncBench Audio에서 90.8%, Scale AI의 AudioMultiChallenge에서 36.1%(thinking 모드 활성화 기준)입니다. (출처: 구글 공식 블로그, 2026.03.26) 이 두 수치는 사실 전혀 다른 이야기를 합니다.
💡 공식 발표 수치와 외부 평가 결과를 나란히 놓고 보니 이런 차이가 보였습니다
ComplexFuncBench Audio는 여행 예약처럼 정해진 시나리오에서 함수 호출을 얼마나 정확하게 연쇄 실행하는지 측정합니다. 90.8%라는 높은 수치는 여기서 나왔습니다. 반면 AudioMultiChallenge는 실제 대화에서 발생하는 말 끊김, 망설임, 주제 이탈 등 비정형 상황을 얼마나 처리하는지 봅니다. 여기서 Flash Live는 36.1%에 그쳤습니다. 그런데 Ars Technica가 지적한 것처럼, 실시간 대화용이 아닌 일반 오디오 모델들은 같은 테스트에서 50%를 넘습니다. (출처: Ars Technica, 2026.03.26)
정리하면, Flash Live는 ‘정해진 작업을 음성으로 실행하는 것’은 잘 하지만 ‘진짜 대화처럼 횡설수설하거나 말을 중간에 바꾸는 상황’에서는 아직 한계가 있습니다. 90.8%라는 수치에 감탄하기 전에 어떤 벤치마크인지 먼저 확인할 필요가 있습니다.
| 벤치마크 | Flash Live 점수 | 무엇을 측정하는가 |
|---|---|---|
| ComplexFuncBench Audio | 90.8% | 정형 시나리오에서 다단계 함수 호출 정확도 |
| AudioMultiChallenge | 36.1% | 실제 대화 환경 (말 끊김·망설임 포함) 처리 능력 |
| BigBench Audio | 1위 | 음성 이해, 오디오 인식 등 5개 역량 종합 평가 |
(출처: 구글 공식 블로그, DeepMind 모델 카드, Ars Technica — 2026.03.26 기준)
공식 문서에 조용히 적혀 있는 미지원 항목 3가지
구글 AI 개발자 문서에는 Gemini 3.1 Flash Live Preview의 기능 지원 여부가 표 형태로 정리돼 있습니다. 지원되는 항목이 먼저 눈에 들어오지만, 그 아래에 ‘Not supported’라고 적힌 항목들이 포스팅에서 거의 언급되지 않습니다. (출처: Gemini API 공식 개발자 문서, 2026.03.26)
💡 마이그레이션 가이드와 기능 표를 함께 읽어보니 이 항목들이 눈에 띄었습니다
이전 모델인 2.5 Flash Native Audio에서 3.1 Flash Live로 넘어올 때 제거해야 하는 기능이 명시돼 있습니다. 이 항목들이 곧 현재 Flash Live가 아직 지원하지 않는 기능들입니다.
① 비동기 함수 호출(Async Function Calling) 미지원
현재 Flash Live는 동기 방식만 지원합니다. 모델이 함수 호출을 요청하면 응답이 돌아올 때까지 대화가 멈춥니다. 예를 들어 실시간 음성 어시스턴트가 날씨 API를 부르는 동안 AI가 아무 말도 못하고 기다리는 상황이 발생합니다. 자연스러운 대화 흐름을 만들기 어렵습니다. (출처: Gemini API 공식 개발자 문서 마이그레이션 가이드, 2026.03.26)
② 선제적 오디오(Proactive Audio) 미지원
이전 모델에서 지원했던 선제적 오디오(Proactive Audio) 기능은 Flash Live에서 제거됐습니다. 이 기능은 AI가 사용자의 말을 기다리지 않고 먼저 말을 꺼낼 수 있게 해주는 것입니다. 없으면 항상 사용자가 먼저 말해야 AI가 반응합니다. 일반 사용자 입장에서는 느끼지 못할 수도 있지만, 음성 에이전트를 만드는 개발자에게는 중요한 제약입니다. (출처: Gemini API 공식 개발자 문서 마이그레이션 가이드, 2026.03.26)
③ 감성 대화(Affective Dialogue) 미지원
감성 대화 기능 역시 현재 Flash Live에서는 쓸 수 없습니다. 이전 모델에서는 사용자의 감정 상태를 감지해 AI가 공감하는 방식으로 응답을 조정하는 게 가능했습니다. 구글이 이 기능을 왜 제거했는지 공식 이유를 밝히지 않았습니다. (출처: Gemini API 공식 개발자 문서 마이그레이션 가이드, 2026.03.26)
이 세 가지는 지금 당장 해결될 사안이 아닙니다. “프리뷰” 딱지가 붙어 있는 만큼 향후 업데이트에서 추가될 가능성은 있지만, 현 시점에서는 미지원입니다.
일반 사용자 입장에서 실제로 달라지는 것들
Gemini Live 앱이나 구글 검색의 AI Mode(Search Live)를 쓴다면 이번 업데이트로 체감 변화가 생깁니다. 구글 공식 블로그에 따르면 응답 속도가 빨라졌고, 대화 맥락을 이전 모델 대비 2배 더 길게 유지합니다. (출처: 구글 공식 블로그, 2026.03.26) 30분짜리 브레인스토밍을 음성으로 해도 앞에서 한 말을 놓치지 않는다는 의미입니다.
또 하나 눈에 띄는 변화는 Search Live의 언어 지원 확장입니다. 이번 Flash Live 출시와 함께 Search Live가 200개 이상 국가에 동시 출시됐습니다. 한국어를 포함한 다국어 실시간 음성 검색이 가능해졌습니다. (출처: 구글 공식 블로그, 2026.03.26)
💡 공식 발표와 마이그레이션 문서를 교차해서 읽어보니 이런 차이가 나왔습니다
일반 사용자용 Gemini Live에서는 ‘대화 맥락 2배 유지’가 핵심 혜택입니다. 그런데 이 기능은 모델이 비디오 스트림을 기본으로 모두 처리하는 방식(TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO)으로 바뀐 덕분이기도 합니다. 개발자가 직접 앱을 만들 때는 이 기본값이 오히려 비용을 올릴 수 있습니다. 카메라를 계속 켜놓으면 오디오 활동이 없어도 비디오 프레임이 계속 처리되기 때문입니다. 일반 앱 사용자에게는 좋은 변화지만, 서비스를 만드는 측에서는 불필요한 비용이 생길 수 있는 부분입니다. (출처: Gemini API 공식 개발자 문서, 2026.03.26)
소음이 심한 환경에서의 음성 처리도 개선됐습니다. 공식 블로그에서는 교통 소음이나 TV 소리 같은 배경음을 더 효과적으로 걸러낸다고 밝혔습니다. (출처: 9to5Google, 2026.03.26)
개발자라면 마이그레이션 전에 꼭 봐야 할 변경 사항
기존에 Gemini 2.5 Flash Native Audio(`gemini-2.5-flash-native-audio-preview-12-2025`)를 쓰고 있다면, 모델 문자열만 바꾼다고 끝이 아닙니다. 구글 공식 개발자 문서에 정리된 주요 변경 사항입니다. (출처: Gemini API 공식 개발자 문서, 2026.03.26)
① thinking 설정 방식이 바뀌었습니다
이전 모델의 `thinkingBudget`이 `thinkingLevel`로 교체됐습니다. 이제 `minimal`, `low`, `medium`, `high` 네 단계로 설정합니다. 기본값은 지연 시간 최소화를 위해 `minimal`로 세팅돼 있습니다. 기존 코드에 `thinkingBudget`이 있다면 그대로 쓰면 오류가 납니다.
② 비디오 처리 기본값 때문에 비용이 올라갈 수 있습니다
이전 모델의 기본값은 `TURN_INCLUDES_ONLY_ACTIVITY`였습니다. 3.1 Flash Live에서는 `TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO`로 바뀌었습니다. 카메라 피드를 상시 열어두는 앱이라면 음성 활동이 없는 구간에서도 비디오 프레임 처리 비용이 발생합니다. 공식 문서는 “오디오 활동이 있을 때만 비디오 프레임을 보내도록 수정”을 권장합니다. (출처: Gemini API 공식 개발자 문서, 2026.03.26)
③ 서버 이벤트 처리 방식도 달라졌습니다
단일 `BidiGenerateContentServerContent` 이벤트 안에 오디오 청크와 텍스트 전사본이 동시에 들어올 수 있습니다. 이전처럼 각각 따로 처리하는 코드를 그대로 쓰면 일부 콘텐츠가 누락됩니다.
세 가지를 정리하면, 모델 문자열 교체 + thinking 설정 변경 + 비디오 turn coverage 설정 확인 + 이벤트 파싱 로직 수정이 최소 작업 단위입니다. 서두르지 말고 공식 마이그레이션 가이드를 처음부터 끝까지 읽는 편이 낫습니다.
SynthID 워터마크, 넣었지만 청취자는 모릅니다
Gemini 3.1 Flash Live가 생성하는 모든 오디오에는 SynthID 워터마크가 삽입됩니다. 구글은 이를 AI 생성 콘텐츠를 신뢰성 있게 식별해 허위 정보 확산을 막기 위한 장치라고 설명합니다. (출처: 구글 공식 블로그, 2026.03.26; DeepMind 모델 카드, 2026.03.26)
💡 SynthID가 있어도 통화 중 실시간으로 누군지 알 방법이 없습니다
SynthID는 “감지 불가능한(imperceptible)” 워터마크입니다. 사람 귀로는 들을 수 없고, 전용 분석 도구를 써야만 AI 생성 여부를 판별할 수 있습니다. 버라이즌, 홈디포 같은 기업들이 이미 Flash Live를 고객 상담 전화에 도입하고 있는데, 상담 전화를 받는 사람은 AI와 대화하고 있는지 모를 수 있습니다. Ars Technica는 “AI와 대화하고 있다는 사실을 본인 스스로도 알기 어려운 구조”라고 지적했습니다. (출처: Ars Technica, 2026.03.26) SynthID는 사후 검증 도구이지, 실시간 안내 도구가 아닙니다.
구글 AI 원칙에 따라 Flash Live는 다양한 안전성 검토와 레드팀 활동을 거쳤습니다. 아동 성 착취 콘텐츠, 혐오 발언, 자해 조장, 과학적 합의에 반하는 의학 정보 등 6가지 카테고리에 대한 차단 정책이 적용됩니다. (출처: DeepMind 모델 카드, 2026.03.26)
Q&A — 자주 묻는 질문 5개
Q1. Gemini 3.1 Flash Live는 무료로 쓸 수 있나요?
Q2. 이전 모델인 Gemini 2.5 Flash Native Audio와 어떻게 다른가요?
Q3. 한국어 음성도 지원하나요?
Q4. ‘thinking’ 기능은 어떻게 켜나요?
Q5. SynthID 워터마크로 AI 음성임을 어떻게 확인하나요?
마치며
Gemini 3.1 Flash Live는 실제로 완성도 높은 모델입니다. 특히 정형화된 작업에서 함수 호출 정확도 90.8%는 음성 에이전트를 만들고 싶은 개발자에게 매력적인 수치입니다. 일반 사용자도 Gemini Live에서 빠르고 자연스러워진 음성 대화를 바로 체험할 수 있습니다.
다만 솔직히 말하면, “역대 최고 음성 모델”이라는 발표 문구 뒤에는 아직 채워지지 않은 빈칸이 있습니다. AudioMultiChallenge 36.1%는 비실시간 모델보다 낮고, 비동기 함수 호출은 안 되고, Proactive Audio와 Affective Dialogue는 이전 모델에서 되던 게 오히려 빠졌습니다. “프리뷰”이기 때문에 당연히 이런 제약이 있을 수 있지만, 그 사실이 홍보 문구만큼 명확히 전달되진 않습니다.
막상 도입해보면 다를 수 있습니다. 공식 마이그레이션 가이드와 기능 지원 표를 먼저 읽고 판단하는 게 시간 절약입니다.
본 포스팅 참고 자료
- 구글 공식 블로그(한국어) — 제미나이 3.1 플래시 라이브 출시 발표 https://blog.google/intl/ko-kr/company-news/technology/gemini-31-flash-live-kr/
- Google AI for Developers — Gemini 3.1 Flash Live Preview 공식 문서 https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-live-preview
- DeepMind 모델 카드 — Gemini 3.1 Flash Live https://deepmind.google/models/model-cards/gemini-3-1-flash-live/
- Ars Technica — The debut of Gemini 3.1 Flash Live could make it harder to know if you’re talking to a robot https://arstechnica.com/ai/2026/03/…
- 9to5Google — Gemini Live gets its ‘biggest upgrade yet’ with Gemini 3.1 Flash Live https://9to5google.com/2026/03/26/gemini-3-1-flash-live/
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본 포스팅은 2026년 3월 28일 기준 공식 자료를 토대로 작성됐으며, Gemini 3.1 Flash Live Preview는 프리뷰 단계로 정식 출시 시 스펙과 기능이 달라질 수 있습니다.











댓글 남기기