2026.03.26 기준
Gemini 3.1 Flash Live Preview
Google AI Studio 기준

Gemini 3.1 Flash Live 써봤습니다
— 말이 되는 것과 안 되는 것

오디오를 텍스트로 변환하지 않고 바로 오디오로 응답합니다. 이게 무슨 뜻인지, 실제로 어떤 차이를 만드는지 공식 문서와 실제 개발자 사례를 같이 놓고 확인했습니다.

90.8%

ComplexFuncBench
Audio 벤치마크

36.06%

AudioMultiChallenge
Thinking 모드

200+개국

Search Live
글로벌 출시

128K

컨텍스트 윈도우
토큰

기존 음성 AI와 뭐가 다른가

결론부터 말씀드리면, Gemini 3.1 Flash Live는 음성을 텍스트로 바꾼 뒤 처리하는 방식을 쓰지 않습니다. 대부분의 음성 AI가 쓰는 방식 — 음성을 받아 텍스트로 변환(STT) → 언어 모델 처리(LLM) → 다시 음성으로 변환(TTS) — 이 3단계 파이프라인을 없애버렸습니다.

💡 공식 발표문과 실제 구조를 같이 보니 이런 차이가 보였습니다

기존 파이프라인은 텍스트로 변환하는 순간 목소리의 톤, 망설임, 강조점이 전부 사라집니다. Flash Live는 오디오가 오디오로 바로 처리되기 때문에 이 정보가 보존됩니다. 말투가 불안하면 불안한 걸, 급하면 급한 걸 모델이 그대로 읽습니다.

구글 공식 블로그(2026.03.26)에 딱 이렇게 나옵니다. “차세대 음성 우선(voice-first) AI에 필요한 속도와 자연스러운 리듬을 제공한다.” 여기서 핵심은 속도보다 리듬입니다. 텍스트를 거치지 않으니 사람이 대화하는 방식의 흐름이 살아납니다.

기술 스펙도 확인했습니다. 입력은 오디오(16비트 PCM, 16kHz), 이미지, 영상, 텍스트를 동시에 받고, 출력은 오디오(24kHz)와 텍스트입니다. 컨텍스트 윈도우는 최대 128K 토큰, 출력 최대 64K 토큰입니다. (출처: DeepMind 모델 카드, 2026.03.26)

▲ 목차로 돌아가기

공식 벤치마크 수치, 직접 해석해봤습니다

구글이 공개한 벤치마크가 세 개입니다. 각각 무엇을 측정하는지 먼저 파악해야 수치가 의미 있습니다.

벤치마크	측정 내용	3.1 Flash Live 점수
ComplexFuncBench Audio	다단계 함수 호출 여행 예약 시나리오	90.8% 1위 (이전 모델 대비)
AudioMultiChallenge	장시간 대화 지속 복잡한 지시 이해	36.06% Thinking 모드, 1위
Big Bench Audio	음성 이해, 억양 인식 환경음 구분	공식 공개 측정 중 (Artificial Analysis)

(출처: Google DeepMind 모델 카드, 2026.03.26 / Scale AI AudioMultiChallenge 리더보드)

ComplexFuncBench Audio 90.8%가 뭘 뜻하냐면, 여행 예약처럼 여러 단계로 연결된 함수를 오디오 대화 중에 순서대로 호출하는 작업에서 이전 모델을 앞섰다는 겁니다. 실제 비즈니스 음성 에이전트 구축 시 가장 중요한 능력 중 하나입니다.

💡 수치를 따라가다 보니 놓치기 쉬운 조건이 보였습니다

AudioMultiChallenge 36.06%는 Thinking 모드 활성화 시 수치입니다. 일반 모드에서는 다릅니다. Gemini Live API 기본 설정에서는 thinkingLevel이 minimal로 낮춰져 있어 실제 앱에서는 이 점수가 그대로 나오지 않습니다. 속도를 택하면 추론 깊이가 줄어드는 트레이드오프입니다.

▲ 목차로 돌아가기

무료로 바로 써볼 수 있는 방법

Google AI Studio(aistudio.google.com)에 구글 계정으로 로그인하면 별도 API 키나 결제 없이 Gemini 3.1 Flash Live를 바로 테스트할 수 있습니다. 마이크, 카메라, 화면 공유까지 전부 브라우저에서 됩니다.

🔧 Google AI Studio에서 Flash Live 실행하는 법

STEP 1

aistudio.google.com 접속 후 구글 계정 로그인

STEP 2

상단 모델 선택에서 ‘Gemini 3.1 Flash Live’ 또는 Live API 탭 선택

STEP 3

마이크 권한 허용 후 즉시 대화 시작 (카메라·화면 공유 선택 가능)

무료 티어에서 사용 횟수 제한이 적용되지만, 기능 체험과 개발 테스트에는 충분합니다. 프로덕션 수준의 사용량이 필요하다면 Google Cloud Vertex AI를 통한 유료 API 연결이 필요합니다.

⚠️ 알아두면 좋은 조건

Flash Live는 세션 메모리가 없습니다. 새 세션을 시작할 때마다 이전 대화 내용은 리셋됩니다. 이전 대화를 기억하게 하려면 직접 대화 요약을 저장하고 다음 세션에 주입하는 코드를 구현해야 합니다. 구글 공식 문서에 이 부분이 명시되어 있습니다.

▲ 목차로 돌아가기

실제 개발자가 겪은 문제 2가지

구글 공식 개발자 포럼(Google AI Developer 커뮤니티, 2026.03.28)에 프로덕션 마이그레이션 후기가 올라왔습니다. 실시간 음성 대화 플랫폼을 운영하는 개발자가 Gemini 2.5에서 3.1 Flash Live로 전환한 뒤 보고한 내용입니다. 전체적으로는 좋아졌지만, 두 가지 문제가 남아 있었습니다.

문제 ① — 짧은 배경 소음 후 모델이 10초간 침묵

사용자가 말을 마친 직후 약 2초 분량의 배경 소음이 입력되면, 모델이 턴을 마감하지 못하고 10초 이상 아무 응답을 하지 않는 현상이 확인됐습니다. 사용자가 “Hello”를 반복해야 겨우 반응했습니다.

세션 로그를 보면 activityEnd 신호를 보낸 뒤에도 노이즈 버스트를 “아직 말 중”으로 인식해 대기 상태로 진입하는 것으로 보입니다. 결정론적이지 않아 전체 테스트 세션 중 약 절반에서 발생했습니다.

문제 ② — 함수 호출 대신 음성으로 결과를 읽어버리는 현상

functionCallingConfig를 ANY 모드로 설정하고 “조용히 함수만 호출하라”고 시스템 프롬프트에 명시했는데, 대화가 길어진 이후 함수를 호출하는 대신 결과를 음성으로 읽어버리거나 둘 다 하는 케이스가 나왔습니다.

클라이언트 측 폴백으로 처리해 서비스는 돌아가지만, 대화 흐름이 어색해집니다. 긴 오디오 대화 후 함수 호출로 전환이 잘 안 되는 패턴으로 구글 포럼에서 이유는 아직 공개되지 않은 상태입니다.

이 두 문제는 마케팅 자료나 공식 발표문에는 나오지 않습니다. 실제 프로덕션에 투입해본 팀에서 3월 28일 기준으로 보고한 내용입니다. 짧은 사용이나 개인 테스트에선 마주치지 않을 수 있지만, 긴 세션이나 노이즈 환경이 섞이면 달라집니다.

▲ 목차로 돌아가기

GPT-4o Realtime과 솔직 비교

비슷한 포지션으로 거론되는 경쟁 모델은 GPT-4o Realtime(OpenAI)입니다. 둘 다 네이티브 스피치-투-스피치 모델이고, 실시간 API를 통해 WebSocket으로 연결합니다. 공식 자료를 교차해서 보니 차이가 드러났습니다.

항목	Gemini 3.1 Flash Live	GPT-4o Realtime
무료 테스트	✅ Google AI Studio	❌ API 키 필요
화면 공유 입력	✅ 지원	❌ 미지원
지원 언어 수	70개 언어	공식 미공개
컨텍스트 윈도우	128K 토큰	128K 토큰
생태계	Google Cloud / Search Live	Azure / OpenAI Platform

(출처: Google AI Developer 공식 문서, OpenAI Realtime API 공식 문서 교차 비교 / 2026.04 기준)

💡 두 공식 문서를 나란히 놓고 보니 보이는 것

GPT-4o Realtime은 현재 화면 공유를 통한 실시간 입력을 지원하지 않습니다. Gemini 3.1 Flash Live가 화면을 보면서 동시에 대화를 이어가는 시나리오에서 실질적인 우위를 가집니다. 코드 리뷰, 기술 지원 에이전트 같은 유스케이스에서 이 차이가 결정적입니다.

두 모델 모두 지연시간은 잘 구현된 환경에서 1초 미만이고, 함수 호출도 지원합니다. 어느 생태계에 이미 발을 담갔는지, 화면 공유가 필요한지 여부가 선택의 기준이 됩니다.

▲ 목차로 돌아가기

Search Live 200개국 확장, 한국어는?

Gemini 3.1 Flash Live는 구글 검색의 Search Live 기능에도 탑재됐습니다. 2026년 3월 26일부터 AI Mode가 제공되는 200개국 이상에 Search Live가 확장됐고, 이 기능의 음성 엔진이 바로 Flash Live입니다. (출처: Google Search 공식 블로그, 2026.03.26)

사용 방법은 간단합니다. 안드로이드 또는 iOS에서 구글 앱을 열고 검색창 아래 Live 아이콘을 탭하면 됩니다. 질문을 음성으로 말하거나 카메라를 켜서 보이는 것에 대해 실시간으로 물어볼 수 있습니다.

💡 공식 발표문에서 다국어 지원 방식을 확인하니 차이가 보였습니다

Flash Live는 “기본적으로 다국어(inherently multilingual)” 처리를 합니다. 기존 음성 모델들이 언어별 전환 단계를 거쳤던 것과 달리, 이 모델은 한국어를 별도로 처리하는 게 아니라 다국어 오디오 자체를 통합 처리합니다. 한국어로 물어보면 한국어로 응답하는 게 자연스럽게 작동해야 한다는 뜻입니다.

다만 Search Live의 AI Mode 한국 출시 여부는 별도로 확인이 필요합니다. 구글이 AI Mode 제공 지역으로 200개국 이상을 언급했지만, AI Mode가 한국에서 정식으로 열려 있는지는 구글 공식 지역별 안내 페이지에서 직접 확인하는 것이 맞습니다.

Gemini Live 앱(제미나이 앱의 라이브 음성 기능)에서도 Flash Live가 적용됐습니다. 이전 모델 대비 응답 속도가 빨라졌고, 대화 흐름을 2배 더 길게 유지할 수 있습니다. 장시간 브레인스토밍이나 긴 맥락 대화에서 체감 차이가 납니다. (출처: Google 공식 블로그, 2026.03.26)

▲ 목차로 돌아가기

자주 나오는 질문들

▼

Google AI Studio에서는 무료로 테스트할 수 있습니다. API 키도 결제 정보도 필요 없습니다. 다만 무료 티어에는 사용량 제한이 있고, 상업적 프로덕션 수준의 트래픽은 Google Cloud 유료 계정이 필요합니다. 소비 기반 요금이며 오디오·영상 토큰은 텍스트 토큰보다 비용이 높습니다.

일반 Gemini Flash와 Flash Live의 차이가 뭔가요?
▼

이전 대화를 기억하나요?
▼

기본적으로 세션이 끝나면 기억을 초기화합니다. 내장 영구 메모리가 없습니다. 이전 대화를 이어가게 하려면 직접 대화 요약을 저장해서 다음 세션 시작 시 시스템 프롬프트에 주입하는 방식으로 구현해야 합니다. 구글 공식 문서도 이 방식을 권장합니다.

SynthID 워터마크가 뭔가요?
▼

Flash Live가 생성하는 모든 오디오에는 SynthID 워터마크가 자동으로 삽입됩니다. 사람 귀에는 들리지 않지만 AI가 감지할 수 있는 방식으로 오디오 신호에 직접 내장됩니다. AI 생성 음성임을 식별하기 위한 구글의 안전 장치이며, 강제 적용입니다. 끌 수 없습니다. (출처: Google DeepMind 모델 카드, 2026.03.26)

지연 시간이 실제로 얼마나 빠른가요?
▼

잘 구현된 환경에서 왕복 지연(round-trip latency)은 1초 미만이 가능합니다. 단, 함수 호출이 포함될 경우 함수 실행 시간만큼 지연이 추가됩니다. 네트워크 상태와 서버 지역도 실제 지연에 영향을 줍니다. thinkingLevel을 minimal로 낮추면 응답 속도가 빨라지지만 추론 깊이가 줄어드는 트레이드오프가 있습니다.

▲ 목차로 돌아가기

마치며 — 기대치를 제대로 잡는 게 중요합니다

Gemini 3.1 Flash Live는 음성 AI의 구조 자체를 바꿨습니다. 텍스트 중간 단계를 없앤 덕분에 대화가 확실히 더 자연스럽고, 공식 벤치마크 수치도 이전 모델 대비 우위를 보입니다. Google AI Studio에서 무료로 바로 테스트할 수 있다는 접근성도 좋습니다.

솔직히 아쉬운 부분도 있습니다. 세션 메모리가 없어서 실제 서비스에 쓰려면 별도 구현이 필요하고, 긴 세션에서 노이즈가 섞이면 10초 침묵이 나올 수 있습니다. 함수 호출의 비결정성도 프로덕션 수준에서는 클라이언트 폴백 없이는 위험할 수 있습니다.

개인 테스트나 프로토타입 단계라면 지금 써볼 이유가 충분합니다. 실제 서비스로 가져가려면 위에서 언급한 조건들을 미리 체크하고 들어가는 게 맞습니다.

본 포스팅 참고 자료

Google 공식 블로그 — 제미나이 3.1 플래시 라이브 발표 (blog.google)
Google DeepMind 모델 카드 — Gemini 3.1 Flash Live (deepmind.google)
Google AI 개발자 문서 — Gemini Live API (ai.google.dev)
Google Search 공식 블로그 — Search Live 글로벌 확장 (blog.google)
Google AI 개발자 커뮤니티 포럼 — 실제 개발자 마이그레이션 후기 (2026.03.28)

본 포스팅은 2026년 3월 26일~4월 1일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 수치 및 기능 정보는 구글 공식 문서와 공개 개발자 포럼을 기반으로 작성되었으며, 서비스 업데이트에 따라 달라질 수 있습니다.

Gemini 3.1 Flash Live 써봤습니다
— 말이 되는 것과 안 되는 것

기존 음성 AI와 뭐가 다른가

공식 벤치마크 수치, 직접 해석해봤습니다

무료로 바로 써볼 수 있는 방법

실제 개발자가 겪은 문제 2가지

GPT-4o Realtime과 솔직 비교

Search Live 200개국 확장, 한국어는?

자주 나오는 질문들

마치며 — 기대치를 제대로 잡는 게 중요합니다

본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Gemini 3.1 Flash Live 써봤습니다 — 말이 되는 것과 안 되는 것

기존 음성 AI와 뭐가 다른가

공식 벤치마크 수치, 직접 해석해봤습니다

무료로 바로 써볼 수 있는 방법

실제 개발자가 겪은 문제 2가지

GPT-4o Realtime과 솔직 비교

Search Live 200개국 확장, 한국어는?

자주 나오는 질문들

마치며 — 기대치를 제대로 잡는 게 중요합니다

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기