gemini-3.1-flash-live-preview
Gemini 3.1 Flash Live, 3가지 수치로 직접 확인했습니다
구글이 “역대 최고 품질 오디오 모델”이라고 발표했습니다. ComplexFuncBench Audio 90.8%, 200개국 동시 확장, 한국어도 됩니다 — 여기까지는 다들 압니다. 근데 막상 공식 문서를 뜯어보면, 기대했던 것과 다른 숫자가 세 군데에서 나옵니다. 쓰기 전에 이 부분은 먼저 봐야 합니다.
Gemini 3.1 Flash Live, 정확히 무엇이 달라졌나
2026년 3월 26일, 구글 딥마인드가 Gemini 3.1 Flash Live를 공개했습니다. 이전 모델 이름은 gemini-2.5-flash-native-audio-preview-12-2025였는데, 이번엔 공식 모델 스트링이 gemini-3.1-flash-live-preview로 바뀌었습니다. 단순한 버전 업이 아니라 아키텍처 계보 자체가 달라진 겁니다.
공식 모델 카드에 따르면 이 모델의 베이스는 Gemini 3 Pro입니다. (출처: Google DeepMind Model Card, 2026.03.26) 즉, Flash라는 이름이 붙었지만 프로 수준 기반 위에 실시간 음성 특화 레이어를 얹은 구조입니다. 음성 AI가 얼마나 정밀한 기반에서 나왔는지를 보여주는 대목입니다.
이 모델은 세 곳에서 사용할 수 있습니다. 개발자는 Google AI Studio의 Gemini Live API를 통해 프리뷰로, 기업 고객은 Gemini Enterprise for Customer Experience로, 일반 사용자는 Search Live와 Gemini Live로 접근 가능합니다. (출처: Google 공식 블로그, 2026.03.26) 버라이즌, 홈디포, 라이브킷 같은 기업들이 이미 워크플로우에 도입하고 긍정적인 피드백을 내놓은 상태입니다.
이전 모델과 핵심 변경 포인트
| 항목 | 이전 (2.5 Flash Native Audio) | 3.1 Flash Live |
|---|---|---|
| 베이스 모델 | Gemini 2.5 | Gemini 3 Pro |
| Thinking 설정 | thinkingBudget | thinkingLevel (minimal~high) |
| 비동기 함수 호출 | 지원 | 미지원 (동기만 가능) |
| Proactive audio | 지원 | 아직 미지원 |
| 입력 컨텍스트 창 | 128K | 131,072 토큰 |
출처: Google AI for Developers 공식 모델 페이지 (2026.03 기준), Gemini API Migration Notes
90.8%라는 숫자가 실제로 의미하는 것
구글 공식 블로그가 가장 크게 내세우는 수치는 ComplexFuncBench Audio에서 90.8%입니다. 이 벤치마크는 여행 예약 같은 다단계 함수 호출을 오디오 입력으로 수행하는 능력을 측정합니다. (출처: Google 공식 블로그, 2026.03.26) 실제 콜센터 챗봇이나 음성 기반 예약 시스템에서 AI가 “예약하고 → 확인하고 → 변경하는” 연속 작업을 얼마나 정확히 수행하는지를 보는 거라, 이 수치가 높을수록 실무 적용 가능성이 올라갑니다.
💡 공식 발표 수치와 실제 벤치마크 설계 방식을 같이 보면 이런 차이가 보였습니다.
ComplexFuncBench는 원래 텍스트-텍스트 평가 도구였습니다. 구글은 이번에 각 프롬프트에 오디오를 합성해서 Live API로 측정했는데, 기존 텍스트 벤치마크보다 훨씬 까다로운 조건입니다. 그 조건에서 90.8%가 나왔다는 건 수치가 뒷받침되는 성능입니다. (출처: Google DeepMind Model Card, 2026.03.26)
그런데 AudioMultiChallenge 벤치마크에서는 36.1%입니다. (출처: Scale AI AudioMultiChallenge Leaderboard, 2026.03 기준) 이 벤치마크는 대화 중 망설임, 수정, 중단 같은 실제 발화 패턴을 버텨내는 능력을 평가합니다. 1위 성적이지만, Ars Technica가 지적한 대로 대화형이 아닌 일반 오디오 이해 모델들은 이 벤치마크에서 50%를 넘기도 합니다. 음성 전용 대화 모델로서는 최고지만, 절대 수치 자체는 아직 완전하지 않습니다. (출처: Ars Technica, 2026.03.26)
BigBench Audio 벤치마크에서도 선두를 차지했으며, 이 테스트는 오디오 캡셔닝, 음성 이해, 음향 환경 인식, 억양·언어 판별, 소리 인식 5가지를 평가합니다. (출처: Google DeepMind Model Card, 2026.03.26) 소음 환경에서 복잡한 작업을 수행하는 음성 에이전트에 요구되는 조건과 정확히 맞아떨어지는 설계입니다.
컨텍스트 창 131K — 이 숫자가 결정적입니다
“Gemini 3.1 Flash Live”라고 하면 최신이니까 당연히 더 넓은 컨텍스트를 가질 거라고 생각하기 쉽습니다. 막상 공식 문서를 보면 다릅니다. Flash Live의 입력 컨텍스트 창은 131,072 토큰입니다. 표준 Gemini 3 Flash와 Flash-Lite는 둘 다 1,048,576 토큰(약 100만 토큰)입니다. (출처: Google AI for Developers 공식 모델 페이지, 2026.03 기준)
💡 두 모델의 실제 수치를 직접 비교해보면 이렇습니다.
표준 Flash: 1,048,576 ÷ 131,072 = 약 8배 차이
긴 문서 분석, 파일 검색, 장시간 롤링 컨텍스트가 필요한 에이전트 작업에서 Flash Live를 표준 Flash의 ‘더 새로운 버전’으로 교체하면, 컨텍스트가 8분의 1 수준으로 줄어드는 셈입니다.
이 차이가 왜 생기는지는 설계 목적에서 나옵니다. Flash Live는 실시간 저지연 음성 대화에 최적화된 모델입니다. 긴 컨텍스트를 유지하면 지연 시간이 늘어나기 때문에, 음성 우선 환경에서는 오히려 컨텍스트 창을 작게 유지하는 게 맞습니다. 문제는 이 트레이드오프를 모르고 백엔드 앱에 Flash Live를 가져다 쓰는 경우입니다. 공식 API 문서에도 “구조화된 출력(Structured outputs), 배치 API, 파일 검색, 캐싱은 미지원”이라고 명시돼 있습니다. (출처: Google AI for Developers, gemini-3.1-flash-live-preview 모델 페이지, 2026.03 기준)
Flash Live가 지원하지 않는 기능 목록
| 기능 | 표준 Flash | Flash Live |
|---|---|---|
| Batch API | ✓ | ✗ |
| 캐싱 (Caching) | ✓ | ✗ |
| 파일 검색 | ✓ | ✗ |
| 구조화 출력 | ✓ | ✗ |
| 컨텍스트 창 | 약 100만 토큰 | 131,072 토큰 |
| 오디오 출력 | ✗ | ✓ (Flash Live 전용) |
출처: Google AI for Developers 공식 모델 페이지 (2026.03 기준)
한국에서 Search Live가 열린 진짜 이유
Search Live가 이번에 전 세계 200개국 이상으로 확대됐습니다. 한국어도 포함입니다. 구글 앱 (Android·iOS) 검색창 아래 ‘Live’ 아이콘을 탭하면 바로 사용할 수 있습니다. (출처: Google Search 공식 블로그, 2026.03.26) 카메라를 켠 채로 눈앞의 물체를 보여주면서 음성으로 질문하는 것도 됩니다. 조립 설명서를 카메라에 비추며 “이 다음 단계가 뭐예요?”라고 물어보는 식입니다.
💡 출시 타이밍과 모델 구조를 같이 보면 연결고리가 보입니다.
이전까지 다국어 확장이 늦었던 이유는 언어마다 음성 모델을 따로 튜닝해야 했기 때문입니다. Gemini 3.1 Flash Live는 다국어 처리 능력을 기본으로 내장(inherently multilingual)하고 있어서, 언어별 설정 없이도 사용자의 언어를 그냥 인식합니다. 200개국 동시 확장이 가능했던 건 이 기술적 조건이 갖춰졌기 때문입니다. (출처: Google Search 공식 블로그, 2026.03.26)
Gemini Live에서도 변화가 있습니다. 이전 모델 대비 응답 속도가 빨라졌고 대화 흐름 유지 시간이 두 배 늘었습니다. (출처: Google 공식 블로그, 2026.03.26) 장시간 브레인스토밍 중에도 앞서 나눈 맥락을 놓치지 않습니다. 단, 이 “두 배”는 공식 블로그에서 밝힌 수치이며 외부 독립 기관의 측정 수치는 아직 나오지 않았습니다.
한 가지 현실적인 포인트는 있습니다. Search Live는 AI Mode가 제공되는 국가와 언어에서만 사용 가능합니다. 한국어는 AI Mode 지원 목록에 포함돼 있어 사용 가능하지만, 일부 지역이나 구형 앱 버전에서는 Live 아이콘이 바로 나타나지 않을 수 있습니다. 구글 앱을 최신 버전으로 업데이트하는 게 첫 번째 확인 사항입니다.
SynthID 워터마크, 편리함이 아닌 필요에서 나온 기능입니다
Gemini 3.1 Flash Live가 생성하는 모든 오디오에는 SynthID 워터마크가 적용됩니다. 사람 귀로는 들리지 않습니다. AI가 만든 음성임을 기술적으로 감지할 수 있는 신호를 오디오에 직접 내장하는 방식입니다. (출처: Google 공식 블로그, 2026.03.26)
왜 이 기능이 지금 등장했는지를 생각해보면 이렇습니다. Ars Technica는 이번 모델을 다루면서 “다음에 전화 받을 AI 상담원이 사람처럼 들릴 수 있다”고 직접 언급했습니다. (출처: Ars Technica, 2026.03.26) 버라이즌, 홈디포 같은 대형 기업들이 이미 이 모델을 고객 응대에 도입하고 있습니다. AudioMultiChallenge에서 1위를 차지한 이 모델은 말하는 도중 망설임, 수정, 중단까지 자연스럽게 소화합니다. 사람 목소리와 구별이 점점 어려워지는 상황에서 SynthID는 단순한 부가 기능이 아닙니다.
다만 SynthID가 해결하지 못하는 부분도 있습니다. 워터마크는 Gemini 생성 음성임을 기술적으로 탐지할 때 도움이 됩니다. 그런데 통화 상대가 AI인지 사람인지를 실시간으로 판별하는 수단은 아닙니다. 워터마크 탐지는 별도의 분석 도구가 있어야 하고, 실시간 대화 중에는 사실상 작동하지 않습니다. 이 구분은 알고 쓰는 게 맞습니다.
Flash Live vs 표준 Flash — 더 새롭다고 더 좋은 게 아닙니다
Gemini 3.1 Flash Live와 Gemini 3 Flash(표준), Gemini 3.1 Flash-Lite는 이름에서 “Flash 시리즈 버전 순서”처럼 보입니다. 실제로는 서로 다른 런타임 계약을 가진 모델들입니다. (출처: blog.laozhang.ai, 2026.03.28 기준 공식 모델 페이지 분석)
특히 비용 측면에서 직접 계산해보면 차이가 확실합니다. 텍스트 처리 기준으로 Flash-Lite는 표준 Flash의 절반 가격입니다. Flash Live는 오히려 더 비쌉니다. 구글 공식 가격 페이지 기준으로 간단한 시뮬레이션을 해보면 이렇습니다.
💡 API 가격 구조를 같이 놓고 보면 모델 선택의 우선순위가 달라집니다.
월 1,000만 입력 토큰 + 200만 출력 토큰 기준 (텍스트 처리 앱 가정)
- 표준 Flash: 입력 $5.00 + 출력 $6.00 = 약 $11.00
- Flash-Lite: 입력 $2.50 + 출력 $3.00 = 약 $5.50
- Flash Live: 입력 $7.50 + 출력 $9.00 = 약 $16.50
텍스트 처리 앱에 Flash Live를 쓰면 표준 Flash 대비 50% 더 비쌉니다. (출처: Google AI for Developers 가격 페이지 기반 계산, 2026.03 기준)
선택 기준은 생각보다 단순합니다. 목소리로 대화하는 서비스를 만들거나 Search Live·Gemini Live를 쓰는 일반 사용자라면 Flash Live입니다. 텍스트, 이미지, 문서를 다루는 백엔드를 만든다면 표준 Flash가 기본값입니다. 번역, 분류, 대량 처리라면 Flash-Lite가 맞습니다. 이름 순서가 아니라 사용 목적으로 고르는 게 맞습니다.
현재 Gemini Live API에서 실제로 보고된 지연 시간 문제도 있습니다. 구글 개발자 포럼에서 3,000ms 이상의 레이턴시가 보고됐고, Vertex AI Studio에서도 사용이 어려울 정도로 지연이 발생한다는 글이 올라와 있습니다. (출처: Google Developer Forum, 2026.03 기준) 이 부분에 대해 구글이 공식 답변을 내놓지 않은 상황입니다. 연구 기준 자연스러운 대화 지연은 300ms 이내인데, 3,000ms는 10배 차이입니다. (출처: Ars Technica, 2026.03.26)
자주 나오는 질문 5가지
마치며
Gemini 3.1 Flash Live는 실시간 음성 AI 분야에서 지금 나와 있는 모델 중 벤치마크 성능이 가장 좋습니다. Gemini 3 Pro 기반이라는 기초체력, 다국어 내장, Search Live를 통한 200개국 동시 배포까지 — 구글이 이번에 꽤 많은 걸 한꺼번에 냈습니다.
솔직히 말하면, 이 모델을 제대로 활용하려면 용도 구분이 먼저입니다. “Flash Live니까 가장 최신이고 좋겠지”라는 접근으로 백엔드 앱에 올리면, 컨텍스트 창이 8분의 1로 줄어들고, 구조화 출력도 안 되고, 텍스트 처리 비용도 50% 더 나옵니다. 목소리로 대화하는 서비스에는 맞는 모델이지만, 그 외 용도에는 기대했던 것과 다릅니다.
Search Live와 Gemini Live에서 일반 사용자로 쓰는 건 이야기가 다릅니다. 한국어로 카메라 들고 말 걸 수 있고, 무료입니다. 타이핑보다 말이 자연스러운 상황이라면 한번 써볼 만합니다. 지연 시간 문제는 아직 완전히 해소되지 않았지만, 이 방향 자체는 계속 발전할 겁니다.
⚡ 한 줄 정리
음성 전용 서비스라면 지금 당장 쓸 이유가 있습니다. 텍스트 백엔드라면 표준 Flash가 맞습니다. 이 둘을 헷갈리지만 않으면 됩니다.
📎 본 포스팅 참고 자료
- Google 공식 블로그 — 제미나이 3.1 플래시 라이브 한국어 발표문
https://blog.google/intl/ko-kr/company-news/technology/gemini-31-flash-live-kr/ - Google DeepMind — Gemini 3.1 Flash Live Model Card (2026.03.26)
https://deepmind.google/models/model-cards/gemini-3-1-flash-live/ - Google AI for Developers — gemini-3.1-flash-live-preview 모델 페이지
https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-live-preview - Google Search 공식 블로그 — Search Live 글로벌 확장 (2026.03.26)
https://blog.google/products-and-platforms/products/search/search-live-global-expansion - Ars Technica — Gemini 3.1 Flash Live 분석 (2026.03.26)
https://arstechnica.com/ai/2026/03/… - Lao Zhang AI Blog — Gemini 3 Flash vs Flash Live vs Flash-Lite 비교 (2026.03.28)
https://blog.laozhang.ai/en/posts/gemini-3-flash-vs-flash-live-vs-flash-lite
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치와 기능 지원 여부는 2026년 3월 26~29일 기준 공식 자료를 근거로 작성됐으며, Google의 업데이트에 따라 달라질 수 있습니다.











댓글 남기기