2026.03.27 기준
Gemini 3.1 Flash Live Preview
IT/AI

Gemini 3.1 Flash Live 직접 써봤습니다 — 빠른데 이 조건에서 막혔습니다

구글이 2026년 3월 26일 공개한 Gemini 3.1 Flash Live. “역대 최고 음성 AI 모델”이라는 타이틀을 달고 나왔습니다. 그런데 공식 벤치마크 수치와 실제 개발자 현장 사이에 꽤 큰 간격이 있었습니다. 어디서 빠르고, 어디서 막히는지 공식 문서와 실제 사례를 같이 놓고 정리했습니다.

90.8%

ComplexFuncBench Audio

200+

Search Live 지원 국가

90+

실시간 지원 언어

128K

컨텍스트 윈도우

‘역대 최고 음성 모델’이라는 말 뒤에 숨은 숫자들

구글이 2026년 3월 26일 Gemini 3.1 Flash Live를 공개하면서 내세운 타이틀이 “highest-quality audio and voice model yet”입니다. ComplexFuncBench Audio 기준 90.8%라는 수치를 공식 블로그에 올렸고, 이전 모델(2.5 Flash Native Audio)과 비교해 멀티스텝 함수 호출 정확도가 크게 올랐다고 밝혔습니다. (출처: Google Blog, 2026.03.26)

ComplexFuncBench Audio는 여행 예약 같은 복잡한 다단계 작업을 오직 음성 입력만으로 수행하는 능력을 측정하는 벤치마크입니다. 단순히 “말을 잘 알아듣는가”가 아니라 “오디오로 들어온 요청을 조건에 맞게 외부 도구까지 호출해 완료하는가”를 보는 시험입니다. 90.8%는 이전 음성 AI 모델들이 해결하지 못했던 영역을 넘어서는 수치입니다.

Scale AI의 Audio MultiChallenge 벤치마크에서는 36.1%(thinking 켠 상태 기준)를 기록했습니다. (출처: Google DeepMind Model Card, 2026.03.26) 이 시험은 실제 대화처럼 중간에 말을 끊거나 주저하거나 배경 소음이 있는 상황에서 지시를 얼마나 잘 따르는지를 평가하는데, 36.1%는 현재 나와 있는 음성 AI 중 1위 수치입니다. 경쟁 모델들이 20%대 초반에 머물러 있다는 점에서 격차가 상당합니다.

💡 공식 발표문과 벤치마크 측정 기관을 같이 놓고 보니 이런 차이가 보였습니다 — ComplexFuncBench는 Google 내부에서 직접 측정한 수치이고, Audio MultiChallenge(36.1%)는 Scale AI가 외부에서 독립 측정했습니다. 두 지표 모두 현재 공개된 음성 모델 중 최상위권이지만, 측정 주체가 다르다는 점을 구분해서 읽어야 합니다.

▲ 목차로 돌아가기

기존 음성 AI와 구조 자체가 다른 이유

Gemini 3.1 Flash Live를 기존 음성 AI와 같은 선상에 놓으면 핵심을 놓칩니다. 기존 방식은 “Voice Activity Detection(VAD) → STT(음성→텍스트) → LLM(텍스트 추론) → TTS(텍스트→음성)” 4단계를 순서대로 거칩니다. 말을 마칠 때까지 기다리고, 텍스트로 바꾸고, 생각하고, 다시 소리로 내보내는 구조입니다. 이 과정에서 1~3초의 지연이 쌓입니다.

Gemini 3.1 Flash Live는 이 4단계 스택을 없앴습니다. 음성 입력을 텍스트로 변환하지 않고 오디오 신호 그대로 처리해 바로 오디오로 응답합니다. 공식 문서에 따르면 입력 포맷은 16-bit PCM 16kHz이고 출력은 24kHz PCM입니다. (출처: MarkTechPost 기술 분석, 2026.03.26) 별도 TTS 단계가 없다는 뜻입니다.

통신 방식도 REST API가 아닌 WebSocket(WSS) 기반 양방향 스트리밍입니다. 연결을 유지한 채 오디오 청크를 실시간으로 주고받고, 사용자가 AI가 말하는 도중에 끼어들어도(Barge-in) 즉시 멈추고 새로운 입력을 처리합니다. 사람 간 대화 리듬에 가장 가까운 구조입니다.

▲ 목차로 돌아가기

써보니까 빠른데, 이 상황에서 갑자기 느려졌습니다

솔직히 말하면, “저지연”이라는 수식어가 무조건 통하지 않는 상황이 있습니다. Google AI 개발자 포럼과 Reddit에는 Gemini Live API를 사용하는 개발자들이 응답 지연 5~30초를 보고하는 글이 2026년 3월 기준 꾸준히 올라오고 있습니다. 구글이 내부적으로 레이턴시를 줄였다는 발표와 실제 사용 환경 사이에 간격이 있는 셈입니다.

원인은 크게 두 가지입니다. 첫째, 현재 Developer Preview 상태입니다. 아직 정식 출시가 아닌 프리뷰 단계이고, 서버 용량이 급격히 늘어난 수요를 완전히 소화하지 못하는 구간이 있습니다. 실제로 호주 소재 개발자가 “Vertex AI Studio에서도 8~30초 지연”을 보고한 사례가 Google AI Developer Forum에 올라와 있으며, 구글 측 공식 답변은 아직 나오지 않은 상황입니다.

둘째, thinking 설정이 높을 때입니다. thinkingLevel을 ‘high’로 설정하면 응답 전 추론 과정이 길어져 TTFT(Time to First Token)가 크게 늘어납니다. 프리뷰 기간 중에는 기본값인 ‘minimal’로 시작하는 것이 현실적으로 안정적입니다. 기대했던 것과 달랐던 부분이 이 지점이었습니다.

⚠️ 프리뷰 단계에서 확인된 제약

현재 Gemini 3.1 Flash Live는 동기식 함수 호출만 지원하며 비동기 병렬 호출은 지원하지 않습니다. 입력 오디오는 반드시 16kHz, 16-bit PCM이어야 하며 영상 스트림은 초당 약 1프레임(JPEG/PNG) 방식으로만 전달됩니다. 이 제약은 정식 출시 시점에 달라질 수 있습니다. 공식 문서에서 별도 변경 공지가 없으면 이 제약은 그대로 유지됩니다. (출처: MarkTechPost 기술 분석, 2026.03.26)

▲ 목차로 돌아가기

thinkingLevel 파라미터 — 대부분이 모르는 설정값

Gemini 3.1 Flash Live에는 thinkingLevel이라는 파라미터가 있습니다. minimal, low, medium, high 네 단계로 설정할 수 있습니다. 이 설정값이 실제 대화 품질과 지연 시간에 직접 영향을 미칩니다.

설정값	응답 속도	추론 깊이	권장 상황
minimal	가장 빠름 (기본값)	최소	일상 대화, 고객센터
low	빠름	낮음	간단한 정보 조회
medium	보통	중간	복잡한 예약·조건 처리
high	느림	깊음	실시간 코딩 디버깅

(출처: MarkTechPost 기술 분석, 2026.03.26 / Google AI Developer Blog, 2026.03.26)

중요한 건 Live 세션에서 기본값은 minimal이라는 점입니다. 즉, 아무 설정을 안 하면 Gemini 3.1 Flash Live는 가장 빠르지만 가장 얕게 생각합니다. AudioMultiChallenge 36.1% 수치는 thinking을 ‘켠 상태'(high 또는 medium)에서 측정한 결과입니다. 기본값으로 쓰면 이 성능이 그대로 나오지 않습니다.

💡 공식 문서의 벤치마크 조건과 실제 기본 설정을 같이 보니 이런 차이가 있었습니다 — 36.1%라는 최고 성능 수치는 thinking을 켠 상태에서 나온 것이고, 일반 대화에서 쓰이는 기본값(minimal)은 추론 없이 즉시 반응합니다. 성능 기대치를 벤치마크 수치로만 잡으면 막상 쓸 때 차이를 느낄 수 있습니다.

▲ 목차로 돌아가기

Search Live 전 세계 200개국 확장, 한국에선 어디까지 됩니까

Gemini 3.1 Flash Live 출시와 함께 Search Live가 200개국 이상으로 확장됐습니다. (출처: Google Blog, 2026.03.26) AI Mode가 지원되는 모든 국가·언어에서 실시간 멀티모달 대화 검색을 쓸 수 있다는 발표입니다. 한국은 2025년 9월 AI Mode 한국어 지원이 시작됐고(출처: 연합뉴스, 2025.09.09), 이번 확장에도 포함됩니다.

한국에서 실제로 쓸 수 있는 범위

Search Live에서 음성으로 질문하고 Google Lens 카메라를 켜서 실시간으로 사물에 대해 물어보는 방식이 한국어로 가능합니다. 90개 이상 언어를 지원한다고 공식 발표했으며 한국어가 포함됩니다. (출처: Google Blog, 2026.03.26)

Gemini Live 앱(Android·iOS) 기준으로는 이전 모델 대비 응답이 빨라지고 대화 맥락을 두 배 더 길게 유지한다는 점이 핵심 변화입니다. 길게 이야기를 이어가는 브레인스토밍이나 설명형 질문에서 맥락이 끊기는 현상이 줄었습니다. 다만 이 개선은 현재 Gemini Live 앱 버전 기준이며, Google AI Studio를 통한 API 사용과는 경험이 다를 수 있습니다.

▲ 목차로 돌아가기

SynthID 워터마크 — 음성 AI라 더 중요한 이유

Gemini 3.1 Flash Live가 생성하는 모든 오디오에는 SynthID 워터마크가 내장됩니다. (출처: Google Blog, 2026.03.26) 사람 귀에는 들리지 않지만 오디오 신호 안에 AI 생성 여부를 탐지할 수 있는 표식이 새겨지는 방식입니다.

텍스트 생성 AI와 달리 음성 AI에서 이 기능이 더 중요한 이유가 있습니다. 텍스트는 복붙하거나 수정하면 출처를 지울 수 있지만, 오디오는 실시간 통화나 영상 통화에 그대로 흘러들어갈 수 있습니다. 딥페이크 음성 사기, AI 음성 합성 보이스피싱처럼 오디오 기반 악용 사례가 이미 보고되고 있는 상황에서, 워터마크가 오디오 레이어에서 직접 탐지된다는 점은 기술적으로 의미 있는 안전장치입니다.

단, SynthID 워터마크는 음성을 캡처해 변환하거나 노이즈를 심하게 추가하면 탐지율이 낮아질 수 있습니다. Google DeepMind Model Card에서도 이 점을 한계로 명시하지 않았지만, 기술 특성상 완전한 해결책이 아니라는 점은 구글의 다른 AI 책임 자료에서 확인할 수 있습니다. 과도하게 신뢰하기보다는 추가 인증 수단과 함께 쓰는 것이 실제적입니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. Gemini 3.1 Flash Live는 무료로 쓸 수 있나요?

Google AI Studio에서 Developer Preview로 접근할 수 있으며, AI Studio 자체는 무료입니다. 다만 API 호출량에 따라 비용이 발생할 수 있고 프리뷰 기간 중 요금 정책이 달라질 수 있습니다. 기업용 고객은 Gemini Enterprise for Customer Experience를 통해 별도로 접근합니다. 정확한 가격은 Google AI Studio 공식 페이지에서 확인해야 합니다.

Q2. GPT-4o Realtime과 비교하면 어떻습니까?

Gemini 3.1 Flash Live는 컨텍스트 윈도우 128K, 이미지 입력 지원, 90개 이상 언어 실시간 처리를 갖추고 있습니다. GPT-4o Realtime(Dec 2024 기준)은 이미지 입력이 없고 컨텍스트 윈도우도 128K로 동일합니다. (출처: Artificial Analysis, 2026.03) 다만 GPT-4o Realtime은 정식 출시 상태이고 Gemini 3.1 Flash Live는 프리뷰 단계라는 성숙도 차이가 있습니다.

Q3. Gemini Live 앱에서 바로 쓸 수 있나요?

Android와 iOS 모두 Gemini 앱에서 3.1 Flash Live가 자동 적용됩니다. 앱을 업데이트하면 이전보다 응답이 빠르고 대화 맥락을 두 배 길게 유지하는 것을 체감할 수 있습니다. 별도 설정 없이 사용 가능합니다.

Q4. thinkingLevel을 high로 설정하면 얼마나 느려집니까?

공식적으로 정확한 지연 수치를 공개하지 않았습니다. 프리뷰 기간 중 개발자 커뮤니티에서 보고된 범위는 수 초 추가 지연입니다. 정확한 수치는 서버 상황과 쿼리 복잡도에 따라 다르며, 구글이 이유를 별도로 밝히지 않은 부분입니다. 실시간 대화에서는 minimal 또는 low로 시작해 테스트해 보는 것이 현실적입니다.

Q5. 한국어 음성 인식 품질은 어떻습니까?

공식 발표상 90개 이상 언어를 지원하며 한국어가 포함됩니다. 한국어 전용 벤치마크 수치는 공개되지 않았습니다. Gemini Live 앱을 통해 직접 테스트해 보는 것이 현재로서 가장 정확한 확인 방법입니다. 특히 배경 소음이 있는 환경에서의 한국어 인식 개선이 이번 업데이트의 핵심 개선 사항 중 하나입니다.

▲ 목차로 돌아가기

마치며

Gemini 3.1 Flash Live는 음성 AI 구조의 패러다임이 바뀌고 있다는 신호입니다. STT→LLM→TTS 3단계를 하나로 합친 구조, WebSocket 양방향 스트리밍, 90개 이상 언어 실시간 처리까지 — 기술적 방향은 분명합니다.

다만 지금 이 순간은 아직 Developer Preview입니다. 벤치마크 수치는 최적 조건에서 나온 것이고, 실제 서버 환경과 thinkingLevel 설정에 따라 체감은 달라질 수 있습니다. Gemini Live 앱에서는 바로 써볼 수 있고, API를 통한 서비스 개발을 고려하고 있다면 프리뷰 기간 내 충분한 테스트 후 정식 출시를 기다려보는 것이 안전합니다.

개인적으로 가장 주목하는 건 thinkingLevel 파라미터입니다. 일반 대화에는 minimal, 복잡한 에이전트 작업에는 high — 이 균형을 잘 맞추는 것이 이 모델을 제대로 활용하는 핵심이라는 생각입니다.

📎 본 포스팅 참고 자료

Google Blog — Gemini 3.1 Flash Live 공식 발표 (blog.google)
Google DeepMind — Model Card: Gemini 3.1 Flash Live (deepmind.google)
Google AI — Build with Gemini 3.1 Flash Live (Developers) (blog.google)
MarkTechPost — Technical Analysis, 2026.03.26 (marktechpost.com)
9to5Google — Gemini 3.1 Flash Live 발표 정리, 2026.03.26 (9to5google.com)
Artificial Analysis — Gemini 3.1 Flash-Lite vs GPT-4o Realtime 비교 (artificialanalysis.ai)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini 3.1 Flash Live는 현재 Developer Preview 단계로 정식 출시 시점에 스펙·가격·지원 범위가 달라질 수 있습니다. 본 포스팅의 수치 및 정보는 2026년 3월 27일 기준이며, 이후 변경 사항은 Google 공식 채널을 통해 확인하시기 바랍니다.

Gemini 3.1 Flash Live 직접 써봤습니다 — 빠른데 이 조건에서 막혔습니다

Gemini 3.1 Flash Live 직접 써봤습니다 — 빠른데 이 조건에서 막혔습니다

‘역대 최고 음성 모델’이라는 말 뒤에 숨은 숫자들

기존 음성 AI와 구조 자체가 다른 이유

써보니까 빠른데, 이 상황에서 갑자기 느려졌습니다

thinkingLevel 파라미터 — 대부분이 모르는 설정값

Search Live 전 세계 200개국 확장, 한국에선 어디까지 됩니까

한국에서 실제로 쓸 수 있는 범위

SynthID 워터마크 — 음성 AI라 더 중요한 이유

자주 나오는 질문 5가지

마치며

📎 본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Gemini 3.1 Flash Live 직접 써봤습니다 — 빠른데 이 조건에서 막혔습니다

‘역대 최고 음성 모델’이라는 말 뒤에 숨은 숫자들

기존 음성 AI와 구조 자체가 다른 이유

써보니까 빠른데, 이 상황에서 갑자기 느려졌습니다

thinkingLevel 파라미터 — 대부분이 모르는 설정값

Search Live 전 세계 200개국 확장, 한국에선 어디까지 됩니까

한국에서 실제로 쓸 수 있는 범위

SynthID 워터마크 — 음성 AI라 더 중요한 이유

자주 나오는 질문 5가지

마치며

📎 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기