Gemini 3.1 Flash Live, 1위인데 왜 36%뿐일까요?

Published on

in

Gemini 3.1 Flash Live, 1위인데 왜 36%뿐일까요?

2026.03.26 기준
gemini-3.1-flash-live-preview
TECH

Gemini 3.1 Flash Live, 1위인데 왜 36%뿐일까요?

구글이 3월 26일 공개한 Gemini 3.1 Flash Live는 “최고 품질 음성 AI”라고 스스로 발표했습니다. 실시간 대화 모델 중 AudioMultiChallenge 1위도 사실입니다. 그런데 그 점수가 36.1%입니다. 비실시간 모델들은 같은 테스트에서 50%를 넘습니다. 이게 무슨 뜻인지, 공식 발표문과 모델 카드를 같이 놓고 보니 이런 차이가 보였습니다.

36.1%
AudioMultiChallenge
실시간 모델 1위
90.8%
ComplexFuncBench
이전 모델 대비
200+
국가 Search Live
지원 확대
90개+
실시간 대화
지원 언어

이게 “Flash”라고요? — 아키텍처부터 다릅니다

Gemini 3.1 Flash Live라는 이름에서 “Flash”를 보면 가볍고 빠른 경량 모델을 떠올리기 쉽습니다. 실제로 구글 Gemini 시리즈에서 Flash는 Pro보다 작은 모델을 의미해왔으니까요. 그런데 DeepMind가 공개한 공식 모델 카드를 보면 한 줄이 눈에 들어옵니다. “Gemini 3.1 Flash Live is based on Gemini 3 Pro.” (출처: DeepMind 공식 모델 카드, 2026.03.26)

💡 공식 발표문과 모델 카드를 같이 놓고 보니 이런 차이가 보였습니다 — Flash라는 이름이 붙었지만, 기반 아키텍처는 Gemini 3 Pro와 동일합니다. Flash 시리즈 내에서도 실시간 음성이라는 특수 목적에 최적화된 별도 파생 모델인 셈입니다.

입력은 오디오, 이미지, 동영상, 텍스트를 최대 128K 토큰 컨텍스트로 받고, 출력은 오디오와 텍스트를 64K 토큰까지 처리합니다. (출처: DeepMind 모델 카드, 2026.03.26) 텍스트 전용 모델 기준이 아니라 실시간 음성 스트림을 처리하는 구조라, 같은 Flash 이름이라도 Gemini 3 Flash Preview와는 설계 목적 자체가 다릅니다.

▲ 목차로 돌아가기

36.1%가 1위인 세계의 불편한 진실

구글 공식 발표문은 Scale AI의 AudioMultiChallenge 벤치마크에서 “thinking 모드 활성화 시 36.1%로 선두”라고 밝혔습니다. (출처: Google 공식 블로그 — Gemini 3.1 Flash Live, 2026.03.26) 숫자만 보면 뭔가 낮아 보이는데, 실제로 그렇습니다.

Ars Technica의 분석이 여기서 중요합니다. AudioMultiChallenge는 실제 대화 중 발생하는 망설임, 대화 끊김, 긴 지시사항 추적 능력을 동시에 평가하는 테스트인데, 비실시간 모드로 작동하는 음성 모델들은 같은 테스트에서 50%를 넘깁니다. 즉, Gemini 3.1 Flash Live가 실시간 모델 중 가장 잘하는 건 사실이지만, 실시간이라는 조건 자체가 아직 태생적 한계를 가집니다. (출처: Ars Technica, 2026.03.26)

💡 “실시간 1위”라는 표현 안에는 “실시간 모델들끼리의 1위”라는 단서가 숨어 있습니다. 비실시간 모델들과의 격차는 아직 14%p 이상 존재합니다.

이 점수가 낮다고 해서 실사용에서 형편없다는 뜻은 아닙니다. ComplexFuncBench Audio에서는 90.8%를 기록했는데, 이 테스트는 여행 예약처럼 현실적인 다단계 함수 호출 시나리오를 평가합니다. 잡음 많은 환경에서도 외부 도구를 정확히 호출하는 능력 면에서는 실질적인 진전이 있습니다. (출처: Google 공식 블로그, 2026.03.26)

▲ 목차로 돌아가기

실제로 바뀐 것 3가지 — 공식 벤치마크로 확인

공식 개발자 블로그에서 직접 나열한 변경점을 기준으로, 이전 모델(2.5 Flash Native Audio)과 비교해 실질적으로 달라진 부분을 정리했습니다.

항목 2.5 Flash Native Audio 3.1 Flash Live
ComplexFuncBench
(다단계 함수 호출)
기준치 90.8% (선두)
AudioMultiChallenge
(실시간 대화 이해)
이전 모델 36.1% (실시간 1위)
대화 컨텍스트
유지 길이
기준 2배 향상
지원 언어 수 30개+ 90개+
SynthID 워터마크 미적용 전체 오디오 적용

※ 출처: Google 공식 블로그 및 DeepMind 모델 카드 (2026.03.26)

Gemini Live에서 대화 컨텍스트를 2배 더 길게 유지한다는 건 생각보다 체감 차이가 큰 부분입니다. 기존 모델은 브레인스토밍 세션이 길어지면 앞서 나눈 맥락이 날아갔는데, 그 문제가 어느 정도 해소됩니다. (출처: Google 공식 블로그, 2026.03.26)

▲ 목차로 돌아가기

Search Live·Gemini Live에 지금 바로 반영됐나요?

결론부터 말씀드리면, 네 — 일반 사용자 기준으로도 3월 26일 당일부터 Gemini Live와 Search Live(AI Mode 기능)에 3.1 Flash Live 모델이 적용되기 시작했습니다. (출처: Google 공식 블로그, 2026.03.26) 별도 설정을 바꾸거나 업데이트를 기다릴 필요가 없습니다.

Search Live는 이번 모델 탑재와 함께 글로벌 확장도 동시에 이뤄졌습니다. 200개 이상의 국가와 지역에서 본인 언어로 구글 검색에서 실시간 멀티모달 대화를 할 수 있게 됐습니다. 한국어도 포함되며, 90개 이상 언어를 기본 지원합니다. 이전 버전이 30개 남짓의 언어를 지원했던 것과 비교하면 세 배 수준입니다.

💡 Gemini API Changelog를 직접 확인하면, gemini-3.1-flash-live-preview 모델 식별자가 2026년 3월 26일자로 릴리스됐습니다. (출처: Gemini API Changelog, ai.google.dev) 개발자 입장에서는 곧바로 이 모델 ID로 API를 호출할 수 있습니다.

Verizon, The Home Depot, LiveKit 같은 기업들이 이미 워크플로우에 도입했고 긍정적 피드백을 공개했습니다. 특히 고객 응대 콜센터에서의 자연스러운 대화 경험 개선이 주된 피드백이었습니다. 단, 이들 기업의 후기는 구글 공식 블로그에서 인용된 형태라 독립적인 검증은 아직 진행 중입니다. (출처: Google 공식 블로그, 2026.03.26)

▲ 목차로 돌아가기

SynthID 워터마크 — 보이지 않지만 작동합니다

이번 모델에서 새로 추가된 기능 중 가장 의미 있는 변화 하나를 꼽자면 SynthID 워터마크입니다. 3.1 Flash Live가 생성하는 모든 오디오에는 사람이 귀로는 들을 수 없는 방식으로 워터마크가 삽입됩니다. (출처: Google 공식 블로그, 2026.03.26) AI가 만든 음성 콘텐츠인지 여부를 나중에 감지할 수 있게 해주는 기술입니다.

이게 왜 중요하냐면, 이번 모델의 음성 자연스러움이 이전보다 훨씬 사람처럼 들린다고 Ars Technica가 직접 지적했습니다. 음조(pitch)와 속도(pace) 인식이 개선되고, 불만이나 혼란 섞인 어조에도 유연하게 반응하도록 설계됐습니다. 전화 상담 AI와 통화할 때 “이게 사람인가 AI인가”를 헷갈리는 상황이 더 잦아질 수 있다는 이야기입니다. (출처: Ars Technica, 2026.03.26)

SynthID는 구글이 오픈소스로 공개한 AI 워터마킹 기술입니다. 인간의 귀에는 감지되지 않고 기계적으로만 검출 가능한 패턴을 오디오 파형에 직접 심어두는 방식입니다. 단, SynthID가 있다고 해서 통화 상대가 AI임을 대화 중에 실시간으로 알아차리게 해주지는 않습니다. 사후 검출용입니다.

▲ 목차로 돌아가기

개발자라면 지금 당장 써볼 수 있는 이유

Gemini 3.1 Flash Live는 Gemini API의 Live API를 통해 프리뷰로 제공됩니다. 모델 ID는 gemini-3.1-flash-live-preview입니다. (출처: Gemini API Changelog, ai.google.dev, 2026.03.26) Google AI Studio에서 바로 접근할 수 있고, 추가 신청이나 대기 없이 API 키만 있으면 테스트가 가능합니다.

📌 접근 경로 3가지

  • 개발자: Google AI Studio → Live API (gemini-3.1-flash-live-preview)
  • 기업: Gemini Enterprise for Customer Experience
  • 일반 사용자: Gemini Live 앱, Google 검색 AI Mode의 Search Live

파트너 생태계도 이미 확장돼 있습니다. LiveKit, Pipecat, Firebase AI Logic 등이 Live API와 연동됩니다. WebRTC 스케일링이나 글로벌 엣지 라우팅이 필요한 프로덕션 환경에서는 이 파트너 연동을 활용하는 게 더 효율적입니다. (출처: Google 개발자 블로그, 2026.03.26) Stitch(음성 디자인 피드백), Ato(노인 AI 동반자), Wits End RPG 게임 마스터처럼 이미 실제 앱에 적용된 사례도 공식 발표문에서 소개됩니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지


개발자는 Google AI Studio에서 Gemini API 무료 티어로 프리뷰 접근이 가능합니다. 단, 기업용 Gemini Enterprise for Customer Experience는 유료입니다. 일반 사용자는 Gemini Live와 Search Live에서 별도 비용 없이 체험할 수 있습니다. 프리뷰 단계라 과금 정책은 정식 출시 시 변경될 수 있습니다 — 공식 문서에서 별도 이유를 밝히지 않은 부분입니다.
이전 2.5 Flash Native Audio와 뭐가 다른가요?

핵심 차이는 세 가지입니다. 첫째, 잡음 환경에서도 외부 도구를 더 정확히 호출합니다(ComplexFuncBench 90.8%). 둘째, 대화 컨텍스트 유지 길이가 2배 늘었습니다. 셋째, 지원 언어가 30개 수준에서 90개 이상으로 확장됐습니다. 아키텍처 기반은 Gemini 3 Pro로 업그레이드됐습니다. (출처: Google 공식 블로그, DeepMind 모델 카드, 2026.03.26)
AudioMultiChallenge 36.1%가 낮은 점수 아닌가요?

실시간 대화 모델 중에서는 1위입니다. 그러나 비실시간 모드로 작동하는 음성 모델들은 같은 테스트에서 50%를 넘깁니다. 즉, 실시간 처리라는 구조적 제약이 아직 성능 한계로 작용합니다. 36.1%가 좋은 건지 나쁜 건지는 비교 대상을 어디에 두느냐에 달려 있습니다. (출처: Ars Technica, 2026.03.26)
SynthID 워터마크는 대화 중에 실시간으로 감지되나요?

아닙니다. SynthID는 사후 검출용입니다. 통화 상대가 AI임을 대화 중에 자동으로 알려주는 기능이 아닙니다. AI가 생성한 음성 파일을 나중에 분석할 때 AI 생성 여부를 판별하는 방식으로 작동합니다. 인간의 귀에는 전혀 들리지 않습니다. (출처: Google 공식 블로그, 2026.03.26)
한국어 음성 대화가 실시간으로 지원되나요?

90개 이상 언어를 지원하며 한국어가 포함됩니다. Search Live는 200개 이상 국가로 이번에 글로벌 확장됐고 한국도 해당합니다. Gemini Live 앱에서도 한국어로 실시간 음성 대화가 가능합니다. (출처: Google 공식 블로그, Google 개발자 블로그, 2026.03.26)

▲ 목차로 돌아가기

마치며 — “1위”라는 숫자 뒤에 있는 것

솔직히 말하면, Gemini 3.1 Flash Live는 잘 만든 모델입니다. 실시간 음성 AI 중에서 지금 이 시점 가장 완성도 높은 것은 맞습니다. ComplexFuncBench에서 90.8%라는 수치는 잡음 환경에서도 복잡한 작업을 해내는 실질적 능력을 보여줍니다.

다만 36.1%라는 AudioMultiChallenge 점수를 보면서 한 가지는 분명히 할 수 있습니다 — 실시간 음성 AI는 아직 비실시간 모델과의 성능 격차를 좁히는 중입니다. 이게 나쁜 게 아니라, 구조적으로 실시간 처리라는 조건 자체가 아직 족쇄로 작용합니다. 앞으로 이 격차가 얼마나 빨리 좁혀지느냐가 Gemini Live와 Search Live 경험의 질을 결정합니다.

Flash라는 이름이 붙었지만 Gemini 3 Pro 기반이라는 점, SynthID가 대화 중 실시간 감지가 아닌 사후 검출이라는 점, 이 두 가지를 기억해두는 것만으로도 이 모델을 더 정확하게 쓸 수 있습니다. 지금 바로 Google AI Studio에서 gemini-3.1-flash-live-preview로 테스트해볼 수 있습니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

  1. Google 공식 블로그 — Gemini 3.1 Flash Live 발표 (blog.google)
  2. DeepMind 공식 모델 카드 — Gemini 3.1 Flash Live (deepmind.google)
  3. Google 개발자 블로그 — Build with Gemini 3.1 Flash Live (blog.google)
  4. Gemini API Changelog (ai.google.dev)
  5. Ars Technica — Gemini 3.1 Flash Live 분석 (arstechnica.com)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 정보는 2026년 3월 26일 기준 공식 발표 자료를 토대로 작성되었으며, 이후 업데이트로 내용이 달라질 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기