구글이 3월 27일 발표한 Gemini 3.1 Flash Live는 “역대 최고 품질의 오디오·음성 모델”이라고 했습니다. ComplexFuncBench Audio에서 90.8%로 업계 1위를 찍었고, 200개국 이상에 Search Live를 깔면서 한국어도 이제 실시간 음성 검색이 됩니다. 근데 공식 API 문서를 뜯어보니, AI 에이전트를 개발하는 입장에서는 지금 당장 쓰면 안 되는 이유가 딱 하나 나옵니다. 그 얘기부터 시작합니다.
(업계 1위)
맥락 유지 길이
글로벌 동시 출시
멀티모달 지원
STT→LLM→TTS 3단계가 사라진 이유
기존 음성 AI가 느렸던 건 구조 자체의 문제였습니다. 음성을 받으면 먼저 텍스트로 전환(STT)하고, 그 텍스트를 LLM에 넣어 답변을 생성한 뒤, 다시 음성으로 합성(TTS)해서 내보내는 3단계 파이프라인. 사람이 말을 끝내고 AI가 답하기까지 이 세 단계를 순서대로 통과해야 했습니다. 개발자들 사이에서는 이걸 “대기 시간 스택(Wait-Time Stack)”이라고 부릅니다.
💡 공식 발표문과 API 기술 사양을 나란히 놓고 보니, 이 구조 변화가 단순히 속도 개선이 아니라 AI가 “억양까지 이해하는 방식”으로 바뀐다는 것을 알 수 있습니다. 텍스트에는 없는 감정·뉘앙스·문화적 맥락이 음향 정보에 실려 있기 때문입니다.
기술적으로는 WebSocket(WSS) 기반 양방향 스트리밍으로 연결됩니다. 일반 REST API가 요청·응답을 한 번씩 주고받는 방식이라면, Live API는 연결을 끊지 않고 오디오·영상·텍스트를 동시에 흘려보낼 수 있습니다. 사용자가 AI 말을 중간에 끊어도(Barge-in) 즉시 처리됩니다.
벤치마크 90.8%가 실제로 의미하는 것
구글이 내세운 숫자는 ComplexFuncBench Audio의 90.8%입니다. 이 벤치마크는 “여행 예약” 시나리오에서 AI가 오디오 입력만으로 복수의 함수를 순서대로 호출하는 능력을 측정합니다. 예를 들어 “지난달 10만 원 이상 결제된 항공 영수증 중 취소된 건 뽑아서 이메일로 보내줘”처럼 여러 조건이 얽힌 작업을 음성으로 지시했을 때 정확히 처리하는지 봅니다. (출처: Google AI 공식 블로그, 2026.03.26)
| 벤치마크 | 점수 | 측정 내용 |
|---|---|---|
| ComplexFuncBench Audio | 90.8% (업계 1위) | 음성 입력 → 다단계 함수 호출 정확도 |
| Audio MultiChallenge (Thinking 모드) |
36.06% (1위) | 잡음·중단 환경에서 장기 추론·지시 준수 |
| Big Bench Audio | 공개 평가 진행 중 | 음성·소리 이해 5개 항목 종합 |
Audio MultiChallenge 36.06%는 얼핏 낮아 보입니다. 하지만 이 벤치마크는 일부러 “말 끊기, 망설임, 잡음”이 섞인 환경을 시뮬레이션해 장시간 대화에서 일관성을 측정합니다. 이전 모델들이 20%대였던 것과 비교하면 체감 차이가 큰 수치입니다. 현실의 고객센터 통화 환경에서 AI가 끝까지 문맥을 잃지 않는다는 뜻입니다.
한 가지 짚어둘 게 있습니다. ComplexFuncBench는 원래 텍스트 기반 평가 도구입니다. 구글은 각 프롬프트를 오디오로 합성(synthesize)해서 이 벤치마크에 적용했다고 공식 모델 카드에 밝혔습니다. 완벽하게 같은 조건의 비교가 아닐 수 있다는 점은 염두에 둘 필요가 있습니다. (출처: Google DeepMind 모델 카드, 2026.03.26)
Search Live 한국어, 지금 당장 쓸 수 있는 조건
이번 Gemini 3.1 Flash Live 발표와 동시에 구글이 Search Live를 전 세계 200개국 이상에 출시했습니다. 한국도 포함됩니다. 구글 앱 검색창 하단에 ‘Live’ 아이콘이 생기고, 탭 한 번에 음성과 카메라를 동시에 켜서 실시간 대화가 가능합니다. (출처: 구글 공식 블로그 한국어판, 2026.03.26)
써보니까 조건이 하나 있습니다. “AI Mode가 지원되는 국가”에서만 Search Live가 작동합니다. 한국은 현재 AI Mode가 활성화된 국가에 포함되어 있어서 바로 쓸 수 있습니다. 안드로이드와 iOS 구글 앱 최신 버전에서 확인 가능합니다. 기존에 구글 렌즈를 쓰던 화면에서 하단 ‘Live’ 탭으로 전환하는 방식입니다.
📱 Search Live 바로 시작하는 법
Android/iOS 구글 앱 실행 → 검색창 하단 ‘Live’ 아이콘 탭 → 음성으로 질문 → 필요하면 카메라 켜서 시각 정보 추가 전달. 후속 질문을 이어가면 대화가 유지됩니다.
솔직히 말하면, Gemini Live의 일반 대화 기능과 Search Live의 차이가 아직 명확하게 느껴지지 않을 수 있습니다. 핵심 차이는 Search Live가 구글 검색 색인을 실시간으로 활용한다는 점입니다. 답변과 함께 웹 링크가 따라 나오고, 카메라로 사물을 비추면 그걸 인식해서 바로 관련 정보를 제공합니다.
thinkingLevel 파라미터, 속도와 추론의 트레이드오프
개발자 입장에서 가장 흥미로운 게 이 파라미터입니다. 이전 2.5 Flash 계열은 thinkingBudget으로 추론 깊이를 숫자로 지정했는데, 3.1 Flash Live에서는 thinkingLevel로 바뀌었습니다. 값은 minimal, low, medium, high 네 단계입니다. (출처: Google AI for Developers 공식 API 문서, 2026.03)
| thinkingLevel | 응답 속도 | 적합한 사용 상황 |
|---|---|---|
| minimal (기본값) | 최고속 | 일상 대화, 고객 응대, 단순 QA |
| low | 빠름 | 복수 조건 처리, 예약·검색 에이전트 |
| medium | 보통 | 코드 설명, 다단계 분석 대화 |
| high | 느림 | 복잡한 디버깅, 고난도 추론, 화상 코딩 |
기본값이 minimal인 이유가 있습니다. 음성 대화에서 300밀리초 이상 지연되면 사람들이 어색함을 느끼기 시작합니다. (Ars Technica, 2026.03.27 인용) 구글은 Live 세션에서 가장 낮은 첫 토큰 생성 시간(TTFT)을 우선시하기 때문에 minimal이 기본입니다. 복잡한 추론이 필요한 경우엔 개발자가 직접 high로 올리면 되지만, 그만큼 응답이 느려지는 트레이드오프가 생깁니다.
AI 에이전트 개발자라면 지금 멈춰야 하는 조건 하나
벤치마크 숫자만 보면 당장 실프로덕션에 올리고 싶어집니다. 근데 공식 API 문서를 보면 딱 한 줄이 눈에 걸립니다. “Async function calling: Not yet supported. Function calling is synchronous only. The model will not start responding until you’ve sent the tool response.” (출처: Google AI for Developers 공식 API 문서, 2026.03)
⚠️ 현재 제약사항 (Preview 기준, 2026.03.27):
• 비동기 함수 호출 미지원 — 함수 응답을 보낼 때까지 AI가 말을 멈춤
• 일괄 처리(Batch API) 미지원
• 컨텍스트 캐싱 미지원
• 코드 실행(Code Execution) 미지원
• Proactive Audio·Affective Dialogue 미지원
• 구조화 출력(Structured Outputs) 미지원
비동기 함수 호출이 안 된다는 게 실제로 어떤 문제냐면 — 예를 들어 사용자가 “이번 달 구매 내역 조회해서 최고가 상품 찾아줘”라고 했을 때, AI는 DB 조회 함수를 호출한 뒤 결과가 돌아올 때까지 완전히 정지합니다. 그동안 아무 말도 못 합니다. 통화 중에 갑자기 침묵이 생기는 거라서 고객 경험에 직접 영향을 줍니다.
💡 공식 문서와 실제 AI 에이전트 개발 흐름을 함께 보면 이런 그림이 나옵니다. 동기 함수 호출만 지원되는 지금 상태로는, 외부 API 응답이 1~2초 이상 걸리는 시나리오에서 음성 에이전트를 프로덕션에 올리기 어렵습니다. 비동기 지원이 추가될 때까지는 “빠른 조회”가 가능한 인메모리 데이터나 로컬 캐시 중심으로 설계하는 게 현실적입니다.
또 한 가지. 지식 컷오프가 2025년 1월입니다. 실시간으로 대화하는 모델이지만, 학습 데이터 자체는 1년 이상 된 정보를 기준으로 합니다. Search Live와 연동되면 실시간 검색으로 보완되지만, API를 직접 쓸 때는 이 점을 염두에 둬야 합니다. (출처: Google AI for Developers 공식 API 문서, 2026.03)
실제 기업은 어떻게 쓰고 있나 — Verizon·The Home Depot 사례
구글이 공식 블로그에 파트너 사례를 직접 공개했습니다. Verizon, The Home Depot, LiveKit, Stream, YouTube가 이미 Gemini 3.1 Flash Live를 워크플로우에 도입한 상태입니다. (출처: 구글 공식 블로그 한국어판, 2026.03.26) 구글이 공식 언급을 했다는 것 자체가 B2B 고객 경험 분야에서의 실용화 속도를 보여줍니다.
The Home Depot 같은 대형 유통 기업이 도입했다는 게 흥미로운 지점입니다. 고객이 매장에서 전화로 “부엌 수도꼭지 교체 부품 종류가 뭐야”라고 물을 때, AI가 음조와 맥락을 파악해 불만 섞인 말투에 맞게 응답 방식을 바꿀 수 있다는 겁니다. 텍스트 기반 봇에서는 불가능했던 접근입니다.
💡 여기서 주목할 게 있습니다. Gemini Enterprise for Customer Experience라는 별도 엔터프라이즈 제품에서는 “2.5 Flash Native Audio 대비 음조·속도 인식이 훨씬 더 효과적”이라고 공식 블로그에 밝혔습니다. (출처: 구글 공식 블로그, 2026.03.26) 같은 Flash Live 모델인데 엔터프라이즈 버전이 따로 구분된다는 점입니다. 기업용으로 쓰려면 이 제품군을 별도 확인해야 합니다.
반면 개발자용 Google AI Studio에서는 Preview 버전으로 제공되는 차이가 있습니다. 동일한 모델명이지만 기업용과 개발자 Preview 버전의 세부 기능·SLA·지원 범위가 다를 수 있습니다. 구글이 공식 답변을 내놓지 않은 부분이라 직접 확인이 필요한 대목입니다.
Q&A
마치며
하지만 개발자라면 Preview 딱지를 가볍게 보지 않는 게 좋습니다. 비동기 함수 호출 미지원, Batch API 미지원, 컨텍스트 캐싱 미지원처럼 실제 서비스에 올릴 때 걸리는 제약이 아직 남아 있습니다. 특히 외부 API 조회가 자주 필요한 음성 에이전트를 만들려면 이 부분이 해결될 때까지 기다리거나, 로컬 캐시 중심으로 아키텍처를 설계해야 합니다.
개인 사용자에게는 지금이 써볼 적기입니다. Search Live를 구글 앱에서 켜보고, 카메라를 활용한 실시간 대화를 직접 경험해보는 것 자체가 이 모델이 어떤 방향으로 가는지 가장 빠르게 이해하는 방법입니다.
📚 본 포스팅 참고 자료
- 제미나이 3.1 플래시 라이브 공식 발표 — 구글 공식 블로그 한국어판 (2026.03.26)
- Gemini 3.1 Flash Live 모델 카드 — Google DeepMind (2026.03.26)
- Gemini 3.1 Flash Live Preview API 스펙 — Google AI for Developers (2026.03)
- Search Live 글로벌 출시 — 구글 공식 블로그 한국어판 (2026.03.26)
- Gemini Live gets its biggest upgrade yet with Gemini 3.1 Flash Live — 9to5Google (2026.03.26)
- Google Releases Gemini 3.1 Flash Live — MarkTechPost (2026.03.26)
※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini 3.1 Flash Live는 현재 Preview 상태(2026.03.27 기준)이며, 정식 출시 시 스펙·요금·기능이 달라질 수 있습니다. 공식 최신 정보는 Google AI 공식 문서에서 확인하시기 바랍니다.











댓글 남기기