Gemini 3.1 Flash Live Preview
Gemini 3.1 Flash Live,
벤치마크 1위인데 이 수치가 흔들립니다
구글이 2026년 3월 26일, “역대 가장 품질 높은 오디오 모델”이라며 Gemini 3.1 Flash Live를 공개했습니다. ComplexFuncBench Audio에서 90.8%로 1위, 기업 고객들도 긍정적인 피드백을 쏟아냈습니다. 그런데 공식 발표문과 같은 날 공개된 다른 벤치마크 수치를 같이 놓고 보면, 1위라는 표현이 조금 다르게 읽힙니다.
Gemini 3.1 Flash Live, 무엇이 달라졌나
Gemini 3.1 Flash Live는 구글이 2026년 3월 26일 공개한 실시간 음성·영상 AI 모델입니다. 공식 명칭은 “Gemini 3 Flash with Native Audio Capabilities”이고, 모델 카드에는 Gemini 3 Pro를 기반으로 구축됐다고 나와 있습니다. (출처: Google DeepMind 모델 카드, 2026.03.26)
이전 세대인 2.5 Flash Native Audio와 비교했을 때 체감 가능한 변화 포인트는 세 가지입니다. 첫째, 응답 지연 시간(latency)이 줄었습니다. 둘째, 대화 맥락 유지 길이가 이전 모델 대비 2배로 늘었습니다. 셋째, 음조(pitch)와 속도(pace) 같은 음향적 뉘앙스를 더 잘 감지해서 사용자가 당황하거나 짜증을 낼 때 응답 톤을 동적으로 조정합니다. (출처: Google 공식 블로그, 2026.03.26)
접근 경로도 세 갈래로 나뉩니다. 개발자는 Google AI Studio의 Gemini Live API(프리뷰)로, 기업은 Gemini Enterprise for Customer Experience로, 일반 사용자는 Gemini Live 앱과 Search Live로 바로 쓸 수 있습니다. 이 중 일반 사용자용은 추가 비용 없이 기존 Gemini 앱에 자동 적용됩니다.
90.8%와 36.1%, 두 숫자가 말하는 것
💡 공식 발표문과 벤치마크 결과를 같이 놓고 보니 이런 차이가 보였습니다
구글은 두 벤치마크 결과를 모두 발표문에 담았는데, 숫자의 맥락을 알아야 읽힙니다.
구글 공식 블로그에는 두 개의 벤치마크 수치가 나란히 공개됐습니다. ComplexFuncBench Audio에서 90.8%로 1위, Scale AI의 AudioMultiChallenge에서 36.1%로 1위입니다. (출처: Google Blog, 2026.03.26) 두 개 모두 “1위”인데, 36.1%가 1위라는 게 이상하게 느껴질 수 있습니다.
여기서 봐야 할 지점이 있습니다. AudioMultiChallenge는 Scale AI가 운영하는 벤치마크로, 실제 대화 환경의 끊김·망설임·주제 전환을 시뮬레이션합니다. Ars Technica는 이 벤치마크를 분석하면서, 대화형으로 설계된 모델들은 여기서 36% 전후인 반면, 대화형이 아닌 일반 오디오 처리 모델들은 50%를 넘기도 한다고 지적했습니다. (출처: Ars Technica, 2026.03.26) 즉, 36.1%는 실시간 음성 AI 카테고리에서 1위이지만, 절대적인 정확도 기준으로 보면 아직 60% 이상이 틀린다는 얘기입니다.
ComplexFuncBench 90.8%는 여행 예약 시나리오에서 여러 단계 함수 호출을 얼마나 잘 수행하는지 측정합니다. 이건 말 그대로 “에이전트로서의 정확도”고, 음성 자연스러움과는 별개의 차원입니다. 두 숫자를 합산해서 “전반적으로 최고”로 읽으면 맥락이 달라집니다.
| 벤치마크 | Gemini 3.1 Flash Live | 측정 항목 |
|---|---|---|
| ComplexFuncBench Audio | 90.8% | 여행 예약 다단계 함수 호출 정확도 |
| AudioMultiChallenge | 36.1% | 실제 대화 환경 끊김·망설임 처리 (thinking 모드) |
| Big Bench Audio | 95.9% | 오디오 이해 (1,000개 단일 턴 테스트) |
출처: Google 공식 블로그(2026.03.26), Google DeepMind 모델 카드(2026.03.26), Ars Technica(2026.03.26)
업데이트 이후 오히려 나빠진 부분이 있습니다
💡 신모델 교체와 동시에 기존 음성 캐릭터 품질이 변하는 현상, 공식 이유는 아직 공개되지 않았습니다
이 패턴은 이번이 처음이 아닙니다. 실사용 환경에서 주기적으로 반복됩니다.
9to5Google이 3.1 Flash Live 출시 직후 Gemini Live를 실사용 테스트한 결과, 영국 여성 억양으로 설정된 “Capella” 음성이 대화 중 미국식 억양으로 미끄러지거나, 속도가 느려지고 어색해지는 현상이 확인됐습니다. (출처: 9to5Google, 2026.03.30) 리셋 직후에는 정상적으로 들리다가 대화가 진행될수록 하이브리드 억양으로 변하는 패턴입니다.
오디오 아티팩트(잡음, 팝, 지지직거림)도 Google Support 포럼에서 산발적으로 보고됩니다. 재현이 일관적이지 않아서 모든 기기나 음성 옵션에서 발생하는 건 아니지만, 3월 초 업데이트 이후 신고가 늘었다는 게 9to5Google의 분석입니다. 구글에 문의했지만 공식 답변은 나오지 않은 상황입니다.
이게 왜 중요하냐면, 구글이 “음성 품질”을 이번 3.1 Flash Live의 핵심 셀링 포인트로 내세웠기 때문입니다. 발표문에는 “음조와 속도 같은 음향적 뉘앙스를 더 잘 인식한다”고 나왔는데, 정작 외부 테스트에서는 기존 음성 캐릭터의 뉘앙스가 무너지는 현상이 보고됩니다. 완전 상반되는 방향은 아니지만, 발표와 실사용 사이에 공백이 있습니다.
SynthID 워터마크, 탐지 못하면 어떻게 되나
3.1 Flash Live가 생성하는 모든 오디오에는 SynthID 워터마크가 삽입됩니다. 인간 귀에는 들리지 않지만 오디오 파일에 기술적으로 내장되어 있어서 AI 생성 여부를 확인할 수 있습니다. (출처: Google 공식 블로그, 2026.03.26) 이 부분이 긍정적 기능처럼 보이지만, Ars Technica가 집어낸 역설이 있습니다.
워터마크는 “파일을 검사할 때” 작동합니다. 실시간 전화 통화나 라이브 스트리밍처럼 파일 형태가 아닌 상황에서는 탐지가 어렵습니다. 3.1 Flash Live가 기업 콜센터용(Gemini Enterprise for Customer Experience)으로 배포되면, 실제 전화를 건 사람은 상담원이 사람인지 AI인지 실시간으로 판별할 수 없습니다. SynthID가 존재하더라도 통화 상대방이 직접 검사할 방법이 없습니다. (출처: Ars Technica, 2026.03.26)
솔직히 이건 구글만의 문제가 아닙니다. OpenAI, Anthropic 모두 실시간 음성 AI에서 동일한 구조적 한계를 갖습니다. 다만 구글이 이번 발표에서 SynthID를 “오정보 확산 방지 수단”으로 직접 언급했기 때문에, 그 한계가 더 선명하게 드러납니다. 워터마크는 사후 검증 도구이지, 실시간 탐지 도구가 아닙니다.
Search Live 글로벌 확대, 한국어도 됩니다
3.1 Flash Live 출시와 동시에 Search Live가 200개 이상 국가·지역으로 확대됐습니다. 한국어도 포함됩니다. AI 모드가 지원되는 모든 언어에서 실시간 음성 및 카메라 대화가 가능해졌습니다. (출처: Google Search Blog, 2026.03.26)
사용법은 간단합니다. Google 앱(Android·iOS)을 열고 검색창 아래 Live 아이콘을 탭하면 됩니다. 질문을 말로 해도 되고, 카메라를 켜서 눈앞의 물체나 상황을 보여주면서 대화할 수도 있습니다. Google Lens에서 Live 버튼을 눌러 접근하는 방법도 지원합니다.
기억해둘 점은, Search Live와 Gemini Live는 별개의 경로라는 것입니다. Search Live는 구글 검색 앱 안에서 동작하고, Gemini Live는 Gemini 앱 안에서 동작합니다. 같은 3.1 Flash Live 모델을 쓰지만 접근 방식과 대화 컨텍스트가 다릅니다. 검색 관련 질의라면 Search Live, 더 길고 자유로운 대화라면 Gemini Live가 맞습니다.
개발자 API: 131K 컨텍스트, 가격은 얼마
💡 Gemini Live API 가격과 구조를 실제로 따져보니, “무료처럼 쓰이는 기능”의 비용이 보입니다
일반 사용자에게는 무료이지만, 이 모델로 서비스를 만들면 비용 구조가 달라집니다.
개발자 기준으로 Gemini 3.1 Flash Live는 현재 프리뷰 상태이며, API 모델명은 google/gemini-3.1-flash-live-preview입니다. (출처: Google AI Developer Docs, 2026.03)
| 항목 | 사양 |
|---|---|
| 컨텍스트 윈도우 | 131,072 토큰 (약 131K) |
| 최대 출력 | 64K 토큰 |
| API 입력 가격 | $0.75 / 1M 토큰 |
| API 출력 가격 | $4.50 / 1M 토큰 |
| 입력 모달리티 | 오디오(PCM 16kHz), 이미지(JPEG ≤ 1FPS), 텍스트 |
| 출력 모달리티 | 오디오(PCM 24kHz), 텍스트 |
출처: automatio.ai 모델 스펙 페이지, Google AI Developer Docs (2026.03 기준)
오디오 입출력 기준으로 계산해보면, 1분짜리 실시간 음성 대화에서 발생하는 오디오 토큰은 약 6만~8만 토큰 수준입니다(추정, 16kHz PCM 기준). 이 구조로 하루 1000건 통화를 처리하는 콜센터라면, 입력 토큰만으로도 하루 API 비용이 수십 달러 수준이 됩니다. 일반 사용자에게 무료인 이유는 구글이 자사 앱 레이어에서 비용을 흡수하기 때문이고, 직접 API를 연동해 서비스를 만드는 개발자는 이 비용을 직접 부담합니다.
프로토콜은 WebSocket(WSS) 기반이고, 서버-서버 방식과 클라이언트-서버 방식을 모두 지원합니다. 70개 언어를 지원하며, 사용자 개입(barge-in), 함수 호출, 오디오 전사(transcription) 기능도 Live API에 포함됩니다. (출처: Google AI Developer Docs, 2026.03)
자주 묻는 질문
Q1. Gemini 3.1 Flash Live를 무료로 쓸 수 있나요?
일반 사용자라면 Gemini 앱이나 Google 검색 앱(Search Live)에서 추가 비용 없이 사용할 수 있습니다. 3.1 Flash Live 모델이 기존 Gemini Live와 Search Live에 자동으로 적용됐기 때문입니다. 개발자가 직접 API를 연동해 서비스를 구축하는 경우에는 입력 $0.75, 출력 $4.50(1M 토큰 기준)의 API 비용이 발생합니다. (출처: automatio.ai, 2026.03 기준)
Q2. ChatGPT Advanced Voice Mode와 비교하면 어떤가요?
ComplexFuncBench처럼 에이전트 작업 수행 능력을 측정하는 벤치마크에서는 Gemini 3.1 Flash Live가 1위입니다. 반면 실사용자들의 비교 후기에서는 OpenAI의 메모리(이전 대화 기억) 기능과 인터럽트 처리 안정성이 더 좋다는 평가도 나옵니다. 한 기준만으로 “어느 쪽이 낫다”고 정리하기 어렵고, 용도에 따라 다릅니다.
Q3. Search Live는 어떻게 시작하나요?
Android 또는 iOS Google 앱을 열고 검색창 아래 Live 아이콘을 탭하면 됩니다. 한국어를 포함한 200개 이상 국가·지역에서 2026년 3월 26일부터 지원됩니다. Google Lens에서도 하단 Live 옵션을 눌러 접근할 수 있습니다. (출처: Google Search Blog, 2026.03.26)
Q4. SynthID 워터마크가 있으면 AI 음성인지 알 수 있나요?
SynthID는 오디오 파일에 기술적으로 삽입되는 워터마크로, 인간 귀에는 들리지 않습니다. 별도 도구로 파일을 검사하면 AI 생성 여부를 확인할 수 있습니다. 단, 실시간 전화 통화처럼 파일 형태가 아닌 상황에서는 통화 상대방이 즉시 탐지할 방법이 없습니다. 구글이 이 부분의 해결 방안을 공식적으로 발표하지는 않았습니다.
Q5. Gemini Live 음성 캐릭터가 이상하게 들리는 현상은 해결됐나요?
2026년 3월 30일 기준으로 9to5Google 테스트에서 Capella 등 일부 음성이 대화 중 억양이 바뀌거나 느려지는 현상이 확인됐습니다. 구글 측 공식 답변은 아직 나오지 않은 상황입니다. 일시적으로 앱을 재시작하면 잠시 정상으로 돌아오지만, 대화가 이어지면서 다시 변하는 패턴이 보고됐습니다. (출처: 9to5Google, 2026.03.30)
마치며
Gemini 3.1 Flash Live는 실시간 음성 AI 카테고리에서 현재 가장 앞서 있는 모델인 건 맞습니다. ComplexFuncBench 90.8%는 실제로 의미 있는 수치이고, 맥락 유지 길이 2배 확장도 체감이 가능한 개선입니다. Search Live가 200개 이상 국가·지역으로 확대된 것도 의미 있는 변화입니다.
다만 AudioMultiChallenge 36.1%가 보여주는 것처럼, 실제 대화 환경에서의 지시 이행 정확도는 아직 40%에도 못 미칩니다. 여기에 업데이트 이후 일부 음성 캐릭터 품질이 흔들린다는 실사용 보고, SynthID 워터마크의 실시간 탐지 한계까지 보면 “최고”라는 표현이 어느 기준에서의 최고인지를 먼저 생각해봐야 합니다.
개인적으로는 Gemini Live를 일상 대화용으로 쓰기에는 충분히 좋아졌다고 생각합니다. 그런데 기업 콜센터나 의료 안내처럼 높은 정확도와 신뢰가 필요한 곳에 그대로 붙이기에는 36.1%라는 수치가 무겁게 느껴집니다. 구글이 다음 업데이트에서 이 수치를 얼마나 끌어올릴지가 진짜 관전 포인트입니다.
📚 본 포스팅 참고 자료
- Google 공식 블로그(한국어) — 제미나이 3.1 플래시 라이브 발표 (2026.03.26)
- Google 공식 블로그(영문) — Gemini 3.1 Flash Live 발표 (2026.03.26)
- Google DeepMind 모델 카드 — Gemini 3.1 Flash Live (2026.03.26)
- Google Search Blog — Search Live 글로벌 확대 (2026.03.26)
- Google AI Developer Docs — Gemini Live API 기술 명세
- 9to5Google — Gemini Live 음성 품질 저하 보고 (2026.03.30)
- Ars Technica — Gemini 3.1 Flash Live AudioMultiChallenge 분석 (2026.03.26)
※ 본 포스팅은 2026년 3월 31일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini 3.1 Flash Live는 현재 Preview 상태이며, 정식 출시 시 스펙·가격이 달라질 수 있습니다. API 가격은 Google AI Studio 및 Vertex AI 기준이며, 요금제에 따라 다를 수 있습니다.











댓글 남기기