Gemini 3.1 Flash Live Preview
Google AI Studio 기준
Gemini 3.1 Flash Live 써봤습니다
— 말이 되는 것과 안 되는 것
오디오를 텍스트로 변환하지 않고 바로 오디오로 응답합니다. 이게 무슨 뜻인지, 실제로 어떤 차이를 만드는지 공식 문서와 실제 개발자 사례를 같이 놓고 확인했습니다.
Audio 벤치마크
Thinking 모드
글로벌 출시
토큰
기존 음성 AI와 뭐가 다른가
결론부터 말씀드리면, Gemini 3.1 Flash Live는 음성을 텍스트로 바꾼 뒤 처리하는 방식을 쓰지 않습니다. 대부분의 음성 AI가 쓰는 방식 — 음성을 받아 텍스트로 변환(STT) → 언어 모델 처리(LLM) → 다시 음성으로 변환(TTS) — 이 3단계 파이프라인을 없애버렸습니다.
기존 파이프라인은 텍스트로 변환하는 순간 목소리의 톤, 망설임, 강조점이 전부 사라집니다. Flash Live는 오디오가 오디오로 바로 처리되기 때문에 이 정보가 보존됩니다. 말투가 불안하면 불안한 걸, 급하면 급한 걸 모델이 그대로 읽습니다.
구글 공식 블로그(2026.03.26)에 딱 이렇게 나옵니다. “차세대 음성 우선(voice-first) AI에 필요한 속도와 자연스러운 리듬을 제공한다.” 여기서 핵심은 속도보다 리듬입니다. 텍스트를 거치지 않으니 사람이 대화하는 방식의 흐름이 살아납니다.
기술 스펙도 확인했습니다. 입력은 오디오(16비트 PCM, 16kHz), 이미지, 영상, 텍스트를 동시에 받고, 출력은 오디오(24kHz)와 텍스트입니다. 컨텍스트 윈도우는 최대 128K 토큰, 출력 최대 64K 토큰입니다. (출처: DeepMind 모델 카드, 2026.03.26)
공식 벤치마크 수치, 직접 해석해봤습니다
구글이 공개한 벤치마크가 세 개입니다. 각각 무엇을 측정하는지 먼저 파악해야 수치가 의미 있습니다.
| 벤치마크 | 측정 내용 | 3.1 Flash Live 점수 |
|---|---|---|
| ComplexFuncBench Audio | 다단계 함수 호출 여행 예약 시나리오 |
90.8% 1위 (이전 모델 대비) |
| AudioMultiChallenge | 장시간 대화 지속 복잡한 지시 이해 |
36.06% Thinking 모드, 1위 |
| Big Bench Audio | 음성 이해, 억양 인식 환경음 구분 |
공식 공개 측정 중 (Artificial Analysis) |
(출처: Google DeepMind 모델 카드, 2026.03.26 / Scale AI AudioMultiChallenge 리더보드)
ComplexFuncBench Audio 90.8%가 뭘 뜻하냐면, 여행 예약처럼 여러 단계로 연결된 함수를 오디오 대화 중에 순서대로 호출하는 작업에서 이전 모델을 앞섰다는 겁니다. 실제 비즈니스 음성 에이전트 구축 시 가장 중요한 능력 중 하나입니다.
AudioMultiChallenge 36.06%는 Thinking 모드 활성화 시 수치입니다. 일반 모드에서는 다릅니다. Gemini Live API 기본 설정에서는 thinkingLevel이 minimal로 낮춰져 있어 실제 앱에서는 이 점수가 그대로 나오지 않습니다. 속도를 택하면 추론 깊이가 줄어드는 트레이드오프입니다.
무료로 바로 써볼 수 있는 방법
Google AI Studio(aistudio.google.com)에 구글 계정으로 로그인하면 별도 API 키나 결제 없이 Gemini 3.1 Flash Live를 바로 테스트할 수 있습니다. 마이크, 카메라, 화면 공유까지 전부 브라우저에서 됩니다.
aistudio.google.com 접속 후 구글 계정 로그인
상단 모델 선택에서 ‘Gemini 3.1 Flash Live’ 또는 Live API 탭 선택
마이크 권한 허용 후 즉시 대화 시작 (카메라·화면 공유 선택 가능)
무료 티어에서 사용 횟수 제한이 적용되지만, 기능 체험과 개발 테스트에는 충분합니다. 프로덕션 수준의 사용량이 필요하다면 Google Cloud Vertex AI를 통한 유료 API 연결이 필요합니다.
Flash Live는 세션 메모리가 없습니다. 새 세션을 시작할 때마다 이전 대화 내용은 리셋됩니다. 이전 대화를 기억하게 하려면 직접 대화 요약을 저장하고 다음 세션에 주입하는 코드를 구현해야 합니다. 구글 공식 문서에 이 부분이 명시되어 있습니다.
실제 개발자가 겪은 문제 2가지
구글 공식 개발자 포럼(Google AI Developer 커뮤니티, 2026.03.28)에 프로덕션 마이그레이션 후기가 올라왔습니다. 실시간 음성 대화 플랫폼을 운영하는 개발자가 Gemini 2.5에서 3.1 Flash Live로 전환한 뒤 보고한 내용입니다. 전체적으로는 좋아졌지만, 두 가지 문제가 남아 있었습니다.
사용자가 말을 마친 직후 약 2초 분량의 배경 소음이 입력되면, 모델이 턴을 마감하지 못하고 10초 이상 아무 응답을 하지 않는 현상이 확인됐습니다. 사용자가 “Hello”를 반복해야 겨우 반응했습니다.
세션 로그를 보면 activityEnd 신호를 보낸 뒤에도 노이즈 버스트를 “아직 말 중”으로 인식해 대기 상태로 진입하는 것으로 보입니다. 결정론적이지 않아 전체 테스트 세션 중 약 절반에서 발생했습니다.
functionCallingConfig를 ANY 모드로 설정하고 “조용히 함수만 호출하라”고 시스템 프롬프트에 명시했는데, 대화가 길어진 이후 함수를 호출하는 대신 결과를 음성으로 읽어버리거나 둘 다 하는 케이스가 나왔습니다.
클라이언트 측 폴백으로 처리해 서비스는 돌아가지만, 대화 흐름이 어색해집니다. 긴 오디오 대화 후 함수 호출로 전환이 잘 안 되는 패턴으로 구글 포럼에서 이유는 아직 공개되지 않은 상태입니다.
이 두 문제는 마케팅 자료나 공식 발표문에는 나오지 않습니다. 실제 프로덕션에 투입해본 팀에서 3월 28일 기준으로 보고한 내용입니다. 짧은 사용이나 개인 테스트에선 마주치지 않을 수 있지만, 긴 세션이나 노이즈 환경이 섞이면 달라집니다.
GPT-4o Realtime과 솔직 비교
비슷한 포지션으로 거론되는 경쟁 모델은 GPT-4o Realtime(OpenAI)입니다. 둘 다 네이티브 스피치-투-스피치 모델이고, 실시간 API를 통해 WebSocket으로 연결합니다. 공식 자료를 교차해서 보니 차이가 드러났습니다.
| 항목 | Gemini 3.1 Flash Live | GPT-4o Realtime |
|---|---|---|
| 무료 테스트 | ✅ Google AI Studio | ❌ API 키 필요 |
| 화면 공유 입력 | ✅ 지원 | ❌ 미지원 |
| 지원 언어 수 | 70개 언어 | 공식 미공개 |
| 컨텍스트 윈도우 | 128K 토큰 | 128K 토큰 |
| 생태계 | Google Cloud / Search Live | Azure / OpenAI Platform |
(출처: Google AI Developer 공식 문서, OpenAI Realtime API 공식 문서 교차 비교 / 2026.04 기준)
GPT-4o Realtime은 현재 화면 공유를 통한 실시간 입력을 지원하지 않습니다. Gemini 3.1 Flash Live가 화면을 보면서 동시에 대화를 이어가는 시나리오에서 실질적인 우위를 가집니다. 코드 리뷰, 기술 지원 에이전트 같은 유스케이스에서 이 차이가 결정적입니다.
두 모델 모두 지연시간은 잘 구현된 환경에서 1초 미만이고, 함수 호출도 지원합니다. 어느 생태계에 이미 발을 담갔는지, 화면 공유가 필요한지 여부가 선택의 기준이 됩니다.
Search Live 200개국 확장, 한국어는?
Gemini 3.1 Flash Live는 구글 검색의 Search Live 기능에도 탑재됐습니다. 2026년 3월 26일부터 AI Mode가 제공되는 200개국 이상에 Search Live가 확장됐고, 이 기능의 음성 엔진이 바로 Flash Live입니다. (출처: Google Search 공식 블로그, 2026.03.26)
사용 방법은 간단합니다. 안드로이드 또는 iOS에서 구글 앱을 열고 검색창 아래 Live 아이콘을 탭하면 됩니다. 질문을 음성으로 말하거나 카메라를 켜서 보이는 것에 대해 실시간으로 물어볼 수 있습니다.
Flash Live는 “기본적으로 다국어(inherently multilingual)” 처리를 합니다. 기존 음성 모델들이 언어별 전환 단계를 거쳤던 것과 달리, 이 모델은 한국어를 별도로 처리하는 게 아니라 다국어 오디오 자체를 통합 처리합니다. 한국어로 물어보면 한국어로 응답하는 게 자연스럽게 작동해야 한다는 뜻입니다.
다만 Search Live의 AI Mode 한국 출시 여부는 별도로 확인이 필요합니다. 구글이 AI Mode 제공 지역으로 200개국 이상을 언급했지만, AI Mode가 한국에서 정식으로 열려 있는지는 구글 공식 지역별 안내 페이지에서 직접 확인하는 것이 맞습니다.
Gemini Live 앱(제미나이 앱의 라이브 음성 기능)에서도 Flash Live가 적용됐습니다. 이전 모델 대비 응답 속도가 빨라졌고, 대화 흐름을 2배 더 길게 유지할 수 있습니다. 장시간 브레인스토밍이나 긴 맥락 대화에서 체감 차이가 납니다. (출처: Google 공식 블로그, 2026.03.26)
자주 나오는 질문들
마치며 — 기대치를 제대로 잡는 게 중요합니다
Gemini 3.1 Flash Live는 음성 AI의 구조 자체를 바꿨습니다. 텍스트 중간 단계를 없앤 덕분에 대화가 확실히 더 자연스럽고, 공식 벤치마크 수치도 이전 모델 대비 우위를 보입니다. Google AI Studio에서 무료로 바로 테스트할 수 있다는 접근성도 좋습니다.
솔직히 아쉬운 부분도 있습니다. 세션 메모리가 없어서 실제 서비스에 쓰려면 별도 구현이 필요하고, 긴 세션에서 노이즈가 섞이면 10초 침묵이 나올 수 있습니다. 함수 호출의 비결정성도 프로덕션 수준에서는 클라이언트 폴백 없이는 위험할 수 있습니다.
개인 테스트나 프로토타입 단계라면 지금 써볼 이유가 충분합니다. 실제 서비스로 가져가려면 위에서 언급한 조건들을 미리 체크하고 들어가는 게 맞습니다.
본 포스팅 참고 자료
- Google 공식 블로그 — 제미나이 3.1 플래시 라이브 발표 (blog.google)
- Google DeepMind 모델 카드 — Gemini 3.1 Flash Live (deepmind.google)
- Google AI 개발자 문서 — Gemini Live API (ai.google.dev)
- Google Search 공식 블로그 — Search Live 글로벌 확장 (blog.google)
- Google AI 개발자 커뮤니티 포럼 — 실제 개발자 마이그레이션 후기 (2026.03.28)
본 포스팅은 2026년 3월 26일~4월 1일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 수치 및 기능 정보는 구글 공식 문서와 공개 개발자 포럼을 기반으로 작성되었으며, 서비스 업데이트에 따라 달라질 수 있습니다.











댓글 남기기