gemini-3.1-flash-live-preview
오늘 출시
Gemini 3.1 Flash Live,
1위인데 이 수치가 걸립니다
구글이 2026년 3월 26일 Gemini 3.1 Flash Live를 공개했습니다. 실시간 음성 AI 모델 중 벤치마크 1위를 주장하는데, 공식 문서를 직접 뜯어보면 그 1위가 어떤 조건에서만 맞는 말인지 보입니다.
1위 (공식 발표)
(비대화형 모델은 50%+)
(한국 포함)
Gemini 3.1 Flash Live가 뭐가 다른가요?
결론부터 말씀드리면, 이 모델은 기존 Gemini 시리즈와 완전히 다른 역할을 합니다. 텍스트를 받아 텍스트를 돌려주는 구조가 아니라, 오디오를 받아 오디오로 직접 응답하는 Audio-to-Audio(A2A) 구조입니다. (출처: Google DeepMind 모델카드, 2026.03.26)
말하자면 음성을 텍스트로 바꾼 다음 처리하는 기존 방식과 달리, 목소리의 높낮이·속도·감정 뉘앙스를 음성 신호 자체에서 직접 읽어냅니다. “당신이 짜증 났는지”를 글자 내용이 아니라 억양으로 판단하는 거죠.
모델 코드명은 gemini-3.1-flash-live-preview이고, Google AI Studio와 Gemini Live API를 통해 오늘부터 개발자 프리뷰로 사용 가능합니다.
1위 수치의 조건 — ComplexFuncBench 90.8%의 실체
구글이 공식 발표에서 내세운 핵심 수치는 ComplexFuncBench Audio 90.8%입니다. (출처: Google Blog, 2026.03.26) 이 벤치마크는 여행 예약 같은 복잡한 다단계 함수 호출 시나리오를 실시간 음성으로 처리하는 능력을 측정합니다. 간단히 말해, “항공권 예약하면서 호텔도 묶어줘”처럼 여러 단계를 이어가는 작업을 얼마나 정확하게 수행하는지를 봅니다.
💡 공식 발표 수치와 실제 사용 흐름을 함께 놓고 보니 이런 차이가 보였습니다
ComplexFuncBench는 원래 텍스트 기반 벤치마크입니다. 구글은 각 프롬프트를 음성으로 합성(TTS)해서 오디오 입력으로 사용했는데, 이는 깨끗한 스튜디오 품질 음성이라는 뜻입니다. 90.8%라는 숫자가 잡음이 섞인 실제 통화 환경에서도 그대로 나온다는 보장은 공식 문서 어디에도 없습니다.
그럼에도 이 수치는 의미 있습니다. 이전 모델 대비 다단계 음성 명령 처리 정확도가 실질적으로 향상됐다는 방향성은 맞고, Verizon·The Home Depot 같은 실제 엔터프라이즈가 이미 긍정적 피드백을 낸 것도 사실이니까요.
36.1%가 말해주는 것 — 아직 좁은 범위
AudioMultiChallenge는 Scale AI가 운영하는 벤치마크로, 실제 대화에서 발생하는 망설임·끊김·수정 발언을 포함한 긴 대화 흐름을 얼마나 잘 따라가는지를 봅니다. 여기서 Gemini 3.1 Flash Live는 36.1% (thinking 모드 활성화 기준)를 기록했습니다. (출처: Ars Technica, 2026.03.27 / Google Blog, 2026.03.26)
⚠️ 주목할 비교 수치
실시간 대화 전용이 아닌 비대화형 오디오 모델들이 이 벤치마크에서 50% 이상을 기록하는 경우가 있습니다. 실시간 음성 모델 1위가 비실시간 모델보다 낮은 점수를 받은 셈입니다. “Gemini 3.1 Flash Live는 지금 당장 사람처럼 긴 대화를 이어가는 데서는 아직 한계가 있다”는 게 공식 수치가 보여주는 현실입니다.
이 차이의 이유는 구조적입니다. 실시간 응답을 위해 추론 깊이를 의도적으로 제한하기 때문입니다. 기본 thinkingLevel이 minimal로 설정돼 있다는 게 공식 개발자 문서에 명시돼 있습니다. 빠른 속도와 깊은 추론은 동시에 최대화할 수 없는 트레이드오프입니다.
공식 문서에서 확인한 4가지 제약
개발자 공식 문서(ai.google.dev, 2026.03.26)에서 직접 확인한 내용입니다. 이전 모델에서 마이그레이션하거나 새로 구축할 때 반드시 챙겨야 할 부분들이에요.
비동기 함수 호출 미지원
모델이 답변을 시작하기 전에 함수 실행이 완료돼야 합니다. “음악 재생하면서 동시에 날씨 확인해줘” 같은 병렬 처리는 현재 불가합니다. 함수 호출은 동기(Synchronous) 전용입니다.
감정 인식 대화(Affective Dialogue) 미지원
이전 모델에서 지원하던 감정 감지 기반 응답 조절 기능이 Flash Live에서는 아직 빠져 있습니다. 공식 문서에서 “코드에서 이 설정을 제거하라”고 명시하고 있습니다.
컨텍스트 캐싱 미지원
입력 토큰 128K를 지원하지만 Caching 기능은 없습니다. 매 세션마다 컨텍스트를 새로 입력해야 하므로, 반복 호출 비용이 예상보다 높게 나올 수 있습니다.
지식 기준일이 2025년 1월
모델의 학습 데이터 기준일이 2025년 1월입니다. Search Grounding을 활성화하지 않으면 그 이후 정보에는 접근할 수 없습니다. 검색 연동 없이 쓰는 경우 최신 정보 응답 신뢰도가 떨어집니다.
Flash Live가 Gemini 3 Pro 기반인 이유
이건 공식 블로그에서 크게 강조하지 않는 부분인데, DeepMind 모델카드에 딱 이렇게 나옵니다. “Gemini 3.1 Flash Live is based on Gemini 3 Pro.” (출처: DeepMind Model Card, 2026.03.26)
💡 모델카드와 API 문서를 함께 놓고 보니 이런 구조가 보였습니다
Flash Live는 Flash 계열이지만 Flash-Lite나 Gemini 3 Flash와 뿌리가 다릅니다. Gemini 3 Pro를 실시간 음성 환경에 맞게 최적화한 파생 모델입니다. 이 말은 곧, Flash Live의 추론 기반 자체는 중간급이 아니라 최상위급에서 가져왔다는 뜻입니다. 다만 실시간 레이턴시를 맞추기 위해 thinking depth를 기본 최솟값으로 묶어둔 겁니다.
이 구조는 개발자 입장에서 흥미롭습니다. thinkingLevel을 high로 올리면 더 깊은 추론이 가능해지지만 레이턴시는 올라갑니다. 반대로 minimal로 유지하면 빠른 실시간 대화가 유지됩니다. 속도와 정확도의 트레이드오프를 개발자가 직접 조절할 수 있는 구조입니다.
Search Live 200개국 확장 — 한국에서 쓰려면
Gemini 3.1 Flash Live 출시와 동시에 Google Search Live가 200개국 이상으로 확장됐습니다. (출처: Google Blog / TechRadar, 2026.03.26) AI Mode가 지원되는 모든 국가에서 음성으로 실시간 검색이 가능해집니다.
📌 한국 사용자 확인 필요
Search Live는 AI Mode가 활성화된 지역에서만 사용 가능합니다. 구글 검색의 AI Mode 한국 정식 지원 시점은 Google이 아직 별도 일정을 공개하지 않았습니다. Gemini Live 앱에서의 음성 대화 기능(모바일)은 한국어로 현재 사용 가능하며, Search Live는 별도입니다.
Gemini Live에서는 이번 업데이트로 두 가지가 바뀌었습니다. 응답 속도가 이전 모델보다 빨라졌고, 대화 스레드 유지 길이가 2배로 늘어났습니다. 긴 브레인스토밍 세션에서 앞에 했던 말을 금방 잊어버리는 문제가 줄어듭니다. (출처: Google Blog, 2026.03.26)
모든 출력 오디오에는 SynthID 워터마크가 삽입됩니다. 사람 귀로는 들리지 않지만, AI 생성 음성임을 탐지할 수 있는 표식입니다. 구글이 이 시점에 워터마크를 전면 적용한 건, Flash Live의 음성이 그만큼 사람 목소리와 구분하기 어려워졌기 때문입니다.
Q&A
마치며
솔직히 말하면, Gemini 3.1 Flash Live는 “실시간 음성 AI”라는 카테고리 안에서 지금 가장 앞서있는 모델입니다. ComplexFuncBench 90.8%는 그 방향에서 나온 진짜 수치입니다.
다만 AudioMultiChallenge 36.1%는 그 1위가 얼마나 좁은 정의 위에 서있는지를 보여줍니다. 일상적인 긴 대화보다 특정 업무 흐름 처리에 강한 모델이라는 말입니다. 비동기 함수 호출 미지원, Affective Dialogue 미지원 등 실제 구축 시 걸리는 부분들도 지금 상태에서는 분명히 있습니다.
Search Live의 200개국 확장과 Gemini Live 대화 유지 2배 개선은 일반 사용자에게 실질적으로 체감되는 변화입니다. 개발자라면 오늘부터 AI Studio 프리뷰에서 직접 확인해보는 게 가장 빠릅니다.
📚 본 포스팅 참고 자료
- Google Blog — Gemini 3.1 Flash Live: Making audio AI more natural and reliable (2026.03.26)
- Google DeepMind — Gemini 3.1 Flash Live Model Card (2026.03.26)
- Google AI for Developers — Gemini 3.1 Flash Live Preview 공식 문서 (2026.03.26)
- Google Blog — Search Live is expanding globally (2026.03.26)
- Ars Technica — Gemini 3.1 Flash Live could make it harder to know if you’re talking to a robot (2026.03.27)
본 포스팅은 2026년 3월 27일 공식 자료를 기반으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 최신 정보는 Google 공식 채널에서 직접 확인하시기 바랍니다.











댓글 남기기