IT / AI
구글이 “역대 최고 품질 오디오 모델”이라고 발표했습니다. 벤치마크 수치는 실제로 1위입니다. 그런데 그 1위 수치에는 일반 텍스트 오디오 모델과 직접 비교하면 절반 수준이라는 사실이 같이 따라붙습니다. 공식 문서에 그대로 나와 있습니다.
(실시간 모델 중 1위)
(함수 호출 정확도)
지원 지역
2026년 3월 26일, 구글이 Gemini 3.1 Flash Live를 공개했습니다. 제품 위치가 좀 헷갈리기 쉬운데, 이 모델은 세 가지 전혀 다른 경로로 접근합니다.
- 일반 이용자: 구글 앱 → 서치 라이브(Search Live) 또는 제미나이 라이브(Gemini Live)
- 개발자: Google AI Studio의 Gemini Live API (프리뷰 버전)
- 기업: Gemini Enterprise for Customer Experience (고객 경험 솔루션)
일반 사용자가 체감하는 경로는 주로 두 가지입니다. 구글 앱에서 검색창 아래 “Live” 아이콘을 탭하면 서치 라이브가 열리고, 여기서 음성과 카메라를 동시에 활용해 실시간 대화 검색을 할 수 있습니다. 제미나이 앱에서 제미나이 라이브를 켜는 것도 같은 모델을 씁니다.
API 쪽은 조금 다릅니다. 3.1 Flash Live는 현재 AI Studio에서 프리뷰(Preview) 상태로만 제공됩니다. 공식 API 요율표에서 “Gemini 3.1 Flash Preview”로 목록에 올라있고, 프리뷰 모델은 정식 출시 모델보다 레이트 리밋이 더 엄격하게 적용됩니다.
(출처: Google AI for Developers, Rate Limits, 2026.03.26)
프리뷰 상태 = 정식 출시 전. 언제든 사양이나 요금이 바뀔 수 있습니다.
1위라는 벤치마크, 숫자의 앞뒤 문맥이 있습니다
구글 공식 블로그에는 “AudioMultiChallenge에서 실시간 오디오 모델 중 1위”라고 나옵니다. 수치는 36.1%입니다. 그냥 읽으면 꽤 낮아 보이는 숫자인데, 실제로 낮습니다. 그게 핵심입니다.
💡 공식 발표 수치와 벤치마크 구조를 같이 놓고 보니 이런 차이가 보였습니다
AudioMultiChallenge는 Scale AI가 만든 벤치마크로, 실제 오디오 환경에서 발생하는 망설임, 대화 중단, 감정 변화를 반영해 복잡한 지시와 장기 추론 능력을 평가합니다. Gemini 3.1 Flash Live는 이 테스트에서 실시간 오디오 모델 카테고리 1위지만, 비실시간 텍스트 기반 오디오 모델은 같은 벤치마크에서 50%를 넘깁니다. 즉, “실시간 음성” 조건을 빼고 비교하면 수치가 다르게 읽힙니다.
Ars Technica는 이 점을 직접 짚었습니다. “실시간 오디오 모델 중 1위지만, 실시간이 아닌 모델들은 50% 이상을 달성한다.” (출처: Ars Technica, 2026.03.26) 실시간 처리라는 제약 조건이 성능의 절반 이상을 깎아먹는 구조입니다.
ComplexFuncBench Audio 수치인 90.8%는 다른 이야기입니다. 이건 다단계 함수 호출 — 예를 들어 여행 예약 시 연쇄적으로 연결된 API 호출을 음성으로 처리하는 능력 — 을 평가합니다. 이 수치는 이전 모델 대비 실질적인 개선이 있고, 실무 에이전트를 구축하는 개발자 입장에서는 의미있는 숫자입니다.
90.8%는 음성 기반 에이전트가 복잡한 업무 흐름을 처리하는 기준선이 됩니다.
이전 모델과 뭐가 달라졌나 — 공식 수치로 비교
기존에 서치 라이브와 제미나이 라이브를 구동하던 모델은 Gemini 2.5 Flash Native Audio였습니다. 3.1 Flash Live는 이 모델을 교체합니다.
| 항목 | 2.5 Flash Native Audio | 3.1 Flash Live (신규) |
|---|---|---|
| 대화 흐름 유지 | 기준 | 2배 더 긴 맥락 유지 |
| 음조·속도 인식 | 기준 | 훨씬 향상 (공식 발표) |
| 다국어 지원 | 제한적 | 70개 언어, 기본 탑재 |
| 응답 속도 | 기준 | 더 빠름 (구체적 ms 미공개) |
| SynthID 워터마크 | 미적용 | 모든 오디오 출력에 적용 |
| 컨텍스트 윈도우 | — | 입력 128K / 출력 64K |
“대화 흐름을 2배 더 길게 유지”한다는 건 체감으로 직결됩니다. 브레인스토밍을 20분 넘게 이어가거나, 복잡한 요리 과정을 카메라로 보여주면서 계속 질문할 때 이전 모델보다 맥락이 끊기는 현상이 확연히 줄었다는 뜻입니다. (출처: Google 공식 블로그, 2026.03.26)
응답 속도의 구체적인 밀리초(ms) 수치는 공식 문서에서 별도 이유를 밝히지 않았습니다. “더 빠르다”는 표현만 공개됐고, 수치 벤치마크는 올라오지 않은 상태입니다.
구글 딥마인드가 공개한 모델 카드에는 한 문장이 명확하게 적혀 있습니다. “Gemini 3.1 Flash Live is based on Gemini 3 Pro.” 음성 특화 모델이 완전히 새로 훈련된 것이 아니라, 이미 출시된 Gemini 3 Pro를 기반으로 실시간 오디오 처리에 맞게 파생됐다는 뜻입니다.
(출처: Google DeepMind 모델 카드, 2026.03.26)
💡 모델 계보를 거슬러 올라가 보니 보이는 게 있었습니다
대부분의 리뷰가 “Gemini 3.1 Flash Live = Gemini 3.1 시리즈의 Flash 버전”으로 소개합니다. 실제로는 “Gemini 3 Pro에서 파생된 오디오 특화 변형”입니다. 즉, 3.1이라는 숫자는 독립적 훈련 세대를 의미하는 게 아니라, 기반 모델 위에 오디오 기능을 얹은 변형 버전을 의미합니다. 프론티어 안전 평가도 Gemini 3.1 Pro 기준으로 이뤄집니다.
이게 왜 중요하냐면, 훈련 데이터·아키텍처·안전 평가 전체가 Gemini 3 Pro 모델 카드를 따릅니다. 별도로 공개된 훈련 데이터나 아키텍처 설명이 없고, 모든 항목이 Gemini 3 Pro 문서로 링크됩니다. “3.1 Flash Live만의 특성”을 별도 문서에서 찾으려 하면 대부분 Gemini 3 Pro로 넘어갑니다.
실용적 의미는 이렇습니다. Gemini 3 Pro의 추론 능력, 지식 컷오프(2025년 1월), 다국어 처리 품질이 그대로 음성 경로로 들어옵니다. Pro급 베이스를 쓰기 때문에 단순 요약 이상의 복잡한 분석도 음성으로 처리할 수 있는 이유가 여기에 있습니다.
서치 라이브 200개국 확대, 한국에서 쓰려면 이걸 먼저 확인하세요
“200개국 이상에서 서치 라이브를 이용할 수 있다”는 공식 발표가 나왔습니다. 그러나 한국에서 서치 라이브를 열려면 한 가지 전제가 있습니다. 구글 검색의 AI 모드(AI Mode)가 활성화된 계정이어야 합니다.
(출처: Google Search 공식 블로그, 2026.03.26)
구글의 AI 모드는 2025년 9월 한국어 지원으로 출시됐고, 이후 Gemini 3 기반으로 업그레이드됐습니다. 서치 라이브는 이 AI 모드 탭 안에서 동작합니다. AI 모드 지원 지역이면 서치 라이브가 열리는 구조입니다. 구글 앱(안드로이드/iOS)에서 검색창 하단 “Live” 아이콘이 보이지 않는다면, 먼저 Search Labs에서 AI 모드 설정을 확인해야 합니다.
⚠️ 사용 전 체크리스트
- 구글 계정 로그인 상태 확인
- 구글 앱 최신 버전 (AI Mode 탭 포함 버전)
- Search Labs → AI 모드 활성화 여부 확인
- 구글 렌즈로 진입 시: 화면 하단 “Live” 버튼 탭
제미나이 라이브는 별도 조건 없이 제미나이 앱에서 바로 접근할 수 있습니다. AI 모드를 굳이 켜지 않아도 됩니다. 단순 음성 대화가 목적이라면 제미나이 라이브가 더 빠릅니다. 서치 라이브는 웹 검색 결과 + 카메라 + 음성을 한 번에 쓰고 싶을 때 의미가 있습니다.
기업·개발자라면 지금 당장 달라지는 게 있습니다
Verizon, Home Depot, LiveKit 같은 기업들이 이미 Gemini 3.1 Flash Live를 워크플로우에 도입했고, 공식 블로그에서 긍정적 피드백을 공유했습니다. 음성 기반 고객 응대 에이전트 품질이 올라간 게 공통된 내용입니다.
API로 직접 쓰려는 개발자는 두 가지를 먼저 봐야 합니다.
첫째, 모델명은 gemini-3.1-flash-live-preview입니다. AI Studio의 Live API 섹션에서 접근합니다. 현재 무료 티어 기준으로 프리뷰 모델은 요청 한도가 더 작게 적용됩니다. 공식 레이트 리밋 확인은 AI Studio → Rate Limit 페이지에서 본인 프로젝트 기준으로 직접 확인해야 합니다.
둘째, Live API의 기술 스펙입니다. 입력 오디오는 16-bit PCM, 16kHz, little-endian 형식이 기본이고, 출력은 24kHz로 올라갑니다. WebSocket(WSS) 기반 stateful 연결이기 때문에 REST API 방식과 구현 구조가 다릅니다. 기존 텍스트 API 통합과 다른 경로가 필요합니다.
(출처: Google AI for Developers, Live API 문서, 2026.03.26)
SynthID 워터마크가 모든 오디오 출력에 자동 적용됩니다. 인간 귀로는 감지할 수 없지만, 기술적 검출은 가능합니다. AI 기본법 시행(2026년 1월 22일) 이후 한국에서 AI 생성 음성을 이용자에게 제공할 때 표시 의무가 생겼는데, SynthID가 기술적 워터마크 역할을 합니다. 다만 법적 표시 의무는 별도이므로 서비스 기획 단계에서 고려가 필요합니다.
Q&A
마치며
그런데 일반 사용자 입장에서 체감이 크게 달라지는 건 대화 흐름 유지 능력입니다. 이전 모델보다 2배 더 긴 맥락을 유지한다는 수치가 실제로 유의미합니다. 브레인스토밍, 요리 따라하기, 운동 중 음성 검색처럼 대화가 길어지는 상황에서 차이가 납니다.
기업·개발자 쪽은 ComplexFuncBench 90.8%가 핵심입니다. 음성으로 복잡한 업무 흐름을 제어하는 에이전트를 만들 때, 이전 세대보다 실패율이 낮아졌다는 뜻이니까요. 단, API는 현재 프리뷰이고, 레이트 리밋과 가격은 정식 출시 전 변경될 수 있습니다.
서치 라이브 진입 장벽(AI 모드 필요)을 아는 것만으로도 “왜 내 폰엔 라이브 버튼이 없지?”라는 허탈함을 피할 수 있습니다. 그 사소한 조건 하나가 실제 사용 경험을 가릅니다.
본 포스팅 참고 자료
- Google 공식 블로그 — Gemini 3.1 Flash Live 한국어 발표: https://blog.google/intl/ko-kr/company-news/technology/gemini-31-flash-live-kr/
- Google DeepMind 모델 카드 — Gemini 3.1 Flash Live: https://deepmind.google/models/model-cards/gemini-3-1-flash-live/
- Google Search 블로그 — 서치 라이브 글로벌 확대: https://blog.google/products/search/search-live-global-expansion
- Google AI for Developers — Live API 문서: https://ai.google.dev/gemini-api/docs/live-api
- Google AI for Developers — Rate Limits: https://ai.google.dev/gemini-api/docs/rate-limits
- Ars Technica — Gemini 3.1 Flash Live 분석: https://arstechnica.com/ai/2026/03/…
본 포스팅은 2026년 3월 29일 기준 공개된 정보를 바탕으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini 3.1 Flash Live는 현재 프리뷰 상태이며, 정식 출시 시 요금·레이트 리밋·기능 사양이 달라질 수 있습니다. 최신 정보는 Google AI for Developers 공식 문서를 직접 확인하세요.











댓글 남기기