Gemini 3.1 Flash Live
IT · AI
Gemini 3.1 Flash Live,
빠를수록 나빠지는 조건이 있습니다
구글이 2026년 3월 26일 출시한 실시간 음성 AI 모델 Gemini 3.1 Flash Live는 ComplexFuncBench Audio에서 90.8%를 기록하며 전작 대비 19포인트 급등했습니다. 그런데 지연시간을 줄이는 Minimal 모드로 전환하면 Big Bench Audio 점수가 95.9%에서 70.5%로 25점 떨어집니다. “빠르면서 정확하다”는 말이 조건 없이 성립하지 않는 이유를, 공식 모델 카드와 벤치마크 수치로 직접 짚어봤습니다.
Gemini 3.1 Flash Live, 정확히 무엇이 달라졌나
2026년 3월 26일 구글이 공식 출시한 Gemini 3.1 Flash Live는 전작인 Gemini 2.5 Flash Native Audio를 대체하는 실시간 음성 AI 모델입니다. 공식 모델 카드(출처: Google DeepMind, 2026.03.26)에 따르면 이 모델은 Gemini 3 Pro를 기반으로 구축됐으며, 입력 토큰 컨텍스트 창이 128K로 전작 대비 두 배 확장됐습니다. 음성을 먼저 텍스트로 변환한 뒤 처리하는 방식이 아니라, 음성 신호를 직접 처리하는 네이티브 오디오 방식을 유지했습니다.
달라진 핵심은 크게 세 가지입니다. 먼저 음조(pitch)와 속도(pace) 같은 음향 신호를 이전보다 훨씬 세밀하게 읽어내는 능력이 향상됐습니다. 사용자가 불만스럽거나 혼란스러운 말투를 쓸 때 그에 맞춰 응답 방식을 조정하는 기능도 개선됐고(출처: Google 공식 블로그, 2026.03.26), 복잡한 환경음이 섞인 상황에서도 음성 인식 정확도가 올라갔습니다. 컨텍스트 창이 두 배가 됐다는 건 대화 흐름을 두 배 더 길게 유지할 수 있다는 뜻이라, 고객 응대 봇이나 장시간 튜터링 세션처럼 대화가 끊기면 안 되는 서비스에서 실질적인 차이가 납니다.
출시 첫날부터 Gemini API와 Google AI Studio 프리뷰에서 바로 쓸 수 있으며, 일반 사용자는 Gemini Live 앱과 Search Live를 통해 접근할 수 있습니다. 개발자용 API 엔드포인트 이름은 아직 공식 문서에서 별도 확정 명시를 찾기 어렵고, 전작 모델과의 마이그레이션 경로는 이유가 아직 공개되지 않은 부분입니다.
ComplexFuncBench 90.8%가 실제로 의미하는 것
💡 공식 발표문과 벤치마크 설계 방식을 같이 놓고 보니, 숫자가 달라지는 상황이 보였습니다.
구글이 발표한 수치 중 개발자 입장에서 가장 눈에 띄는 건 ComplexFuncBench Audio 점수입니다. 전작(Gemini 2.5 Flash Native Audio)의 71.5%에서 90.8%로, 19.3포인트 올랐습니다(출처: awesomeagents.ai, 2026.03.30 / Google 공식 블로그, 2026.03.26). 이 벤치마크는 음성 대화 도중 여행 예약 같은 다단계 함수 호출을 얼마나 정확하게 수행하는지를 측정합니다. 그냥 음성을 잘 알아듣는 게 아니라, 사용자가 말하는 동안 백엔드 API를 연달아 호출하는 능력을 보는 겁니다.
이게 왜 중요하냐면, 실제 서비스에서 음성 에이전트가 쓸모 있으려면 “예약해줘” 같은 말 한 마디를 들으면서 동시에 날짜 확인 → 좌석 조회 → 결제 처리 순서로 API를 이어 붙여야 합니다. 말 자체를 잘 알아듣는 건 그냥 기본이고, 그 말을 들으며 실제 작업을 처리하는 능력이 서비스 품질을 갈라놓습니다. 19포인트 상승이 단순 음성 인식 개선보다 에이전트 배포에 훨씬 직접적인 의미를 갖는 이유입니다.
| 벤치마크 | Gemini 3.1 Flash Live (High) | GPT-4 Realtime 1.5 | Step-Audio R1.1 |
|---|---|---|---|
| Scale AI Audio MultiChallenge | 36.1% | 34.7% | — |
| ComplexFuncBench Audio | 90.8% | — | — |
| Big Bench Audio (High) | 95.9% | — | 97.0% |
| Big Bench Audio (Minimal) | 70.5% | — | — |
(출처: Google 공식 블로그 / awesomeagents.ai, 2026.03.26~30 / Google DeepMind 모델 카드, 2026.03.26)
빠르게 쓰면 손해 보는 구간이 있습니다
💡 “High 모드 수치”와 “Minimal 모드 수치”를 나란히 놓고 보면, 지연시간 절약이 얼마짜리 타협인지 계산이 됩니다.
Gemini 3.1 Flash Live에는 Thinking 모드가 있습니다. High, Low, Minimal 세 단계로 나뉘는데, 개발자가 API 호출 시점에 직접 선택합니다. 구글은 High 모드 수치를 전면에 내세웠지만, 막상 공식 발표자료와 모델 카드를 살펴보면 Minimal 모드에서의 Big Bench Audio 점수가 70.5%까지 내려간다는 사실이 기재돼 있습니다(출처: awesomeagents.ai, 2026.03.30). 25포인트 차이입니다. 지연시간을 낮추는 대신 음성 추론 정확도를 25점 포기하는 선택이라는 뜻입니다.
실제 서비스를 만들 때 이게 왜 문제가 되냐면, 서비스를 쓰는 사람은 자신이 어떤 모드로 처리되고 있는지 알 방법이 없습니다. Minimal 모드를 선택한 개발자가 만든 앱에서 70.5%짜리 정확도를 경험하면서도, 사용자 입장에선 그냥 “Gemini 3.1 Flash Live가 좀 헷갈리게 대답하네”라고 느끼는 상황이 됩니다. 같은 모델 이름이 완전히 다른 성능으로 배포될 수 있다는 점은, 모델 이름만 보고 품질을 판단할 수 없는 구조를 만듭니다.
추가로 구글은 지연시간 수치를 ms(밀리초) 단위로 공개하지 않았습니다. 공식 블로그와 모델 카드 어디에도 구체적인 응답 지연 시간이 없습니다. OpenAI의 Realtime API는 sub-320ms를 공표하는 반면, 구글의 “낮은 지연시간”은 비교 불가능한 상태입니다(출처: Google DeepMind 모델 카드, 2026.03.26). 이유는 아직 공개되지 않았습니다.
벤치마크 1위라는 말이 전부가 아닌 이유
구글은 Scale AI Audio MultiChallenge에서 36.1%로 GPT-4 Realtime 1.5(34.7%)를 앞섰다고 강조합니다. 차이는 1.4포인트입니다. 오차 범위를 고려하면 실질적으로 같은 수준이라고 볼 수도 있습니다. 게다가 Big Bench Audio에서는 Step-Audio R1.1 Realtime(Stepfun)이 97.0%로 여전히 선두고, Gemini 3.1 Flash Live는 95.9%로 2위입니다(출처: awesomeagents.ai, 2026.03.30).
또 다른 문제는 구글의 비교표에 ElevenLabs, Tencent Covo-Audio, Mistral Voxtral 같은 다른 음성 모델 숫자가 없다는 겁니다. 경쟁 구도를 GPT-4 Realtime 기준으로만 프레이밍하는 방식입니다. 2026년 상반기 기준으로 음성 AI 시장에 진입한 플레이어가 많은데, 구글의 발표 자료는 그 중 일부만 선별해 비교했습니다. 나머지와의 수치 비교는 아직 공개되지 않았습니다.
솔직히 말하면, 90.8%라는 ComplexFuncBench 수치는 실제 에이전트 개발에 쓸 만한 수준입니다. 하지만 “1위”라는 수식어를 그대로 받아들이기 전에 어느 벤치마크에서 1위인지를 확인하는 게 먼저입니다.
가격은 그대로인데 성능은 올랐다는 말의 함정
💡 발표문의 “가격 동결”이 긍정적으로 읽히는 반면, 다른 방향으로 보면 꼭 그렇지만은 않습니다.
Gemini 3.1 Flash Live의 API 가격은 오디오 입력 시간당 $0.35, 오디오 출력 시간당 $1.40입니다(출처: awesomeagents.ai, 2026.03.30). 전작인 Gemini 2.5 Flash Native Audio와 동일합니다. 구글은 이를 긍정적인 신호로 내세웠습니다.
직접 계산해보면: 하루 1시간 음성 서비스를 운영할 경우 입력 $0.35 + 출력 $1.40으로 시간당 약 $1.75, 한 달이면 약 $52.50입니다(30일 기준). 성능이 오른 만큼 요금이 내려가는 게 일반적인 기대지만, 이번 업데이트에선 단가가 내려가지 않았습니다. 고용량 배포 환경에서는 성능이 올라도 비용 절감 효과가 없다는 의미입니다.
단, 컨텍스트 창이 128K로 두 배 늘었기 때문에 같은 대화를 처리하는 데 API 호출 횟수가 줄 수 있습니다. 그 효과가 실제 비용을 줄이는지는 워크로드 패턴에 따라 달라지고, 구글이 그 부분을 별도로 계산해 공개하지 않았습니다.
Search Live 200개국 확대, API 수치보다 더 큰 변화
발표에서 벤치마크만큼이나 실질적인 변화는 Search Live의 글로벌 확장입니다. 구글 검색에서 음성과 카메라를 동시에 쓸 수 있는 Search Live가 2025년 7월 미국 한정으로 시작됐다가, 이번 업데이트를 통해 200개 이상의 국가와 지역, 90개 이상의 언어로 한꺼번에 확대됐습니다(출처: Google 공식 블로그, 2026.03.26). 한국도 포함됩니다. 이 서비스는 Gemini 3.1 Flash Live 모델로 구동됩니다.
구체적으로 어떤 경험이냐면, 스마트폰 카메라를 어딘가에 갖다 대면서 말로 질문하면 실시간으로 음성 답변이 나오는 방식입니다. 식물 사진을 보여주며 “이게 왜 이래?”라고 물으면 음성으로 원인과 처방을 말해주는 식입니다. 이게 몇 달 전만 해도 미국 한정이었다는 사실을 생각하면, 기술 접근성 측면에서는 API 벤치마크 숫자보다 더 큰 변화입니다.
Gemini Live 앱 역시 3.1 Flash Live 모델로 업데이트됐고, 2026년 2월에 도입된 플로팅 필 인터페이스와 결합해 음성 세션 중에도 다른 앱을 사용할 수 있게 됐습니다. 생산성 측면에서 이전 버전과 체감 차이가 나는 부분입니다.
자주 나오는 질문 5가지
마치며 — 써볼 가치와 조심해야 할 것
Gemini 3.1 Flash Live는 실시간 음성 AI로서 지금까지 나온 버전 중 가장 완성도가 높습니다. ComplexFuncBench 90.8%는 에이전트 개발자 입장에서 진짜 쓸 만한 수준이고, Search Live가 한국을 포함한 200개국으로 확대된 건 이 기술이 생활에 들어오는 속도가 빨라졌음을 보여줍니다.
그런데 모드 선택이 성능에 미치는 영향이 생각보다 크고, 지연시간 ms 수치를 구글이 공개하지 않은 점은 직접 확인이 필요한 부분입니다. API 가격이 동결된 건 “변동이 없다”는 안정성이기도 하지만, 고용량 배포에서 비용이 줄어들 거라는 기대는 하지 않는 게 맞습니다.
개발자라면 Google AI Studio에서 High와 Minimal 모드를 직접 비교해보는 게 제일 빠릅니다. 일반 사용자라면 Gemini Live 앱에서 바로 체감할 수 있습니다. 수치보다 직접 써보는 게 판단에 더 도움이 됩니다.
📚 본 포스팅 참고 자료
- Google 공식 블로그 — 제미나이 3.1 플래시 라이브 발표 (2026.03.26) blog.google
- Google DeepMind 모델 카드 — Gemini 3.1 Flash Live (2026.03.26) deepmind.google
- Gemini API 공식 출시 노트 ai.google.dev
- Awesome Agents — Gemini Flash Live Edges GPT-4 Realtime in Voice AI Race (2026.03.30) awesomeagents.ai
- Investing.com — 구글, 개발자용 Gemini 3.1 Flash Live 오디오 모델 출시 (2026.03.26) kr.investing.com
※ 본 포스팅은 2026년 3월 31일 기준 공개된 공식 자료를 바탕으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 가격, 모델 사양, 지원 국가 등 수치는 변경될 수 있으므로 최신 정보는 Google 공식 페이지에서 직접 확인하시기 바랍니다.











댓글 남기기