Gemini 3.1 Flash Live, “1위”인데 이 숫자가 있습니다

Published on

in

Gemini 3.1 Flash Live, “1위”인데 이 숫자가 있습니다

2026.03.26 기준
Gemini 3.1 Flash Live
공식 출시

Gemini 3.1 Flash Live, “1위”인데 이 숫자가 있습니다

구글이 3월 26일 Gemini 3.1 Flash Live를 공개했습니다. 발표문에는 “최고 품질의 오디오 모델”이라는 표현이 가득합니다. 그런데 공식 모델 카드와 벤치마크 수치를 같이 놓고 보면, 생각보다 복잡한 그림이 나옵니다. 어디서 1위이고 어디서 한계가 드러나는지 — 숫자로 직접 확인했습니다.

90.8%
ComplexFuncBench 점수
36.1%
AudioMultiChallenge 점수
200+
Search Live 지원 국가

Gemini 3.1 Flash Live, 어떤 모델인가요?

구글이 2026년 3월 26일 공식 블로그를 통해 발표한 모델입니다. 공식 설명은 “실시간 저지연 음성·영상 대화를 위한 구글의 최고 품질 오디오 모델”입니다. 오디오, 이미지, 영상, 텍스트를 동시에 받아서 즉각적인 음성 응답을 돌려줍니다. (출처: Google DeepMind 모델 카드, 2026.03.26)

접근 경로는 세 갈래입니다. 개발자는 Google AI Studio의 Gemini Live API로 프리뷰 상태에서 사용 가능하고, 기업은 Gemini Enterprise for Customer Experience를 통해 도입할 수 있습니다. 일반 사용자는 Gemini Live 앱과 구글 검색의 Search Live 기능으로 바로 쓸 수 있습니다.

이번 업데이트가 단순한 버전 숫자 올리기가 아닌 이유는, 음성 AI에서 가장 어렵다는 문제인 “끊김·망설임·중단 처리” 능력을 끌어올렸다는 데 있습니다. 이전 모델들이 사람이 말을 멈추거나 수정할 때 흐름을 잃었던 것과 달리, 이번 모델은 그 상황을 실시간으로 해석하도록 설계됐습니다.

▲ 목차로 돌아가기

벤치마크 1위인데 숫자가 왜 이렇게 낮을까요

💡 공식 발표문과 공식 모델 카드를 같이 놓고 보니 이런 차이가 보였습니다. 1위라는 표현이 어느 벤치마크 기준인지 따라가면 그림이 달라집니다.

구글은 두 가지 벤치마크에서 1위를 주장합니다. 첫 번째는 ComplexFuncBench Audio로, 여행 예약처럼 단계별 함수 호출이 필요한 복잡한 작업을 음성으로 처리하는 능력을 측정합니다. 여기서 Gemini 3.1 Flash Live의 점수는 90.8%입니다. 실시간 음성 AI들 사이에서는 선두입니다. (출처: Google 공식 블로그, 2026.03.26)

두 번째 벤치마크인 Scale AI의 AudioMultiChallenge는 전혀 다른 이야기입니다. 이 벤치마크는 실제 대화에서 발생하는 끊김, 망설임, 중단 상황에서 복잡한 지시를 따르는 능력을 측정합니다. Gemini 3.1 Flash Live는 사고(thinking) 모드 활성화 기준으로 36.1%를 기록하며 실시간 음성 모델 중 1위를 차지했습니다. (출처: Google 공식 블로그, 2026.03.26)

⚠️ 여기서 놓치기 쉬운 점: Ars Technica의 분석에 따르면, 비실시간 방식으로 작동하는 음성 모델들은 같은 AudioMultiChallenge에서 50% 이상의 점수를 받습니다. 즉, “실시간 음성 AI 중 1위 36.1%”는 비실시간 모델 기준으로는 하위권에 해당하는 수치입니다. (출처: Ars Technica, 2026.03.26)

이 차이는 실시간 처리 방식 자체의 구조적 한계에서 나옵니다. 실시간 모델은 스트리밍 입력을 끊임없이 처리하면서 응답해야 하기 때문에, 모든 대화가 끝날 때까지 기다렸다가 분석하는 비실시간 모델보다 정확도가 낮을 수밖에 없습니다. 1위가 맞긴 하지만, 비교 대상을 어떻게 잡느냐에 따라 의미가 달라집니다.

벤치마크 Gemini 3.1 Flash Live 비실시간 모델 평균
ComplexFuncBench Audio 90.8% (실시간 1위) 측정 기준 다름
AudioMultiChallenge 36.1% (실시간 1위) 50% 이상
컨텍스트 창 128K 입력 / 64K 출력 모델별 상이

출처: Google DeepMind 모델 카드, Ars Technica (2026.03.26)

▲ 목차로 돌아가기

Flash라는 이름이 헷갈리는 이유가 있습니다

💡 모델 이름만 보고 “가벼운 버전”이라고 넘기기엔, 기반 아키텍처가 생각보다 묵직합니다.

구글의 Gemini 모델 네이밍은 Pro / Flash 두 축으로 나뉩니다. Pro는 최고 성능, Flash는 속도와 비용 효율에 집중한 버전입니다. 그래서 “Flash Live”를 보면 자연스럽게 “가벼운 실시간 모델”이라고 읽힙니다. 그런데 공식 모델 카드에는 이렇게 나와 있습니다.

“Gemini 3.1 Flash Live is based on Gemini 3 Pro.”

— Google DeepMind 모델 카드, 2026.03.26

아키텍처, 학습 데이터, 하드웨어 섹션 모두 Gemini 3 Pro 모델 카드를 참조합니다. Flash라는 이름이 붙었지만 밑바탕은 Pro급 구조입니다. 실시간 처리에 최적화된 변형 버전이라고 보는 게 더 정확합니다.

이걸 왜 주목해야 할까요. Gemini 3.1 Flash-Lite(3월 3일 출시)는 진짜 경량 모델입니다. 그런데 3.1 Flash Live는 이름은 비슷하지만 완전히 다른 목적과 기반을 가진 모델입니다. 실시간 음성 대화를 위해 Pro 아키텍처를 가져왔고, API 접근 방식도 다릅니다. 같은 “Flash” 계열처럼 보이지만 쓰임새와 무게가 전혀 다릅니다.

▲ 목차로 돌아가기

Search Live 글로벌 확장, 한국도 됩니다

3월 26일 Gemini 3.1 Flash Live 출시와 동시에, 구글은 Search Live를 200개 이상 국가로 확장 개통했습니다. AI Mode가 지원되는 모든 언어와 지역에서 사용 가능합니다. (출처: Google 검색 공식 블로그, 2026.03.26) 200개 국가 확장이라는 것은 사실상 전 세계 동시 개방입니다.

사용 방법은 간단합니다. 안드로이드나 iOS에서 구글 앱을 열고, 검색창 아래 Live 아이콘을 탭하면 됩니다. 질문을 소리내어 말하거나 카메라를 켜서 눈앞에 보이는 것을 보여주면, 실시간으로 오디오 응답이 옵니다. Google Lens를 쓰는 중에도 화면 하단의 Live 버튼으로 전환할 수 있습니다.

한국어 지원 여부

공식 발표에서 “기본적으로 다국어 처리 능력(inherently multilingual)”이라고 표현했습니다. 200개국 확장의 핵심 기술적 기반이 바로 이 다국어 지원입니다. 단, 특정 국가에서 AI Mode 자체가 아직 제한되어 있다면 Search Live도 함께 제한될 수 있습니다. 현재 구글 AI Mode 지원 지역 목록은 구글 고객센터 페이지에서 확인 가능합니다.

카메라 + 음성 동시 사용이 핵심입니다

선반 조립을 하다가 막히면 카메라를 켜고 “이 부분 어떻게 연결해요?”라고 물으면, 카메라가 보는 화면을 인식해서 답해주는 방식입니다. 텍스트 검색으로는 설명하기 어려운 상황에서 특히 효과적입니다.

▲ 목차로 돌아가기

SynthID 워터마크, 사용자는 직접 확인할 수 없습니다

💡 “AI 생성 음성을 구별한다”는 기능이 실제로 어떻게 작동하는지 공식 문서에서 찾아봤더니, 사용자 입장에서는 투명하지 않은 부분이 있습니다.

3.1 Flash Live가 생성하는 모든 오디오에는 SynthID 워터마크가 삽입됩니다. 이 워터마크는 사람이 들어서는 인지할 수 없는 방식으로 오디오 출력물에 직접 내장됩니다. (출처: Google 공식 블로그, 2026.03.26) 즉, 워터마크가 있어도 귀로는 들리지 않습니다.

Ars Technica는 이 부분을 정면으로 지적했습니다. 모델이 사람처럼 들릴 만큼 자연스러워지면, SynthID 워터마크가 있어도 일반 사용자는 상대방이 AI인지 사람인지 알 방법이 없다는 겁니다. 워터마크 감지는 별도 도구가 있어야 가능한 구조입니다.

실용적으로 따져보면: Verizon, The Home Depot, LiveKit 같은 기업들이 이미 고객 응대 워크플로우에 3.1 Flash Live를 도입하고 있습니다. 고객이 통화 중 AI와 대화하고 있다는 사실을 인지하지 못할 가능성이 이전 모델보다 높아졌습니다.

구글은 이 모델이 구글 AI 원칙과 책임 있는 AI 접근 방식을 따른다고 명시했지만, SynthID 감지 도구를 일반 사용자가 어떻게 접근할 수 있는지는 공식 발표문에서 별도로 밝히지 않았습니다.

▲ 목차로 돌아가기

Gemini Live 맥락 유지 2배 — 뒤집어 보면

💡 “2배 향상”이라는 수치를 기준점에서 거꾸로 읽으면, 이전 모델의 실제 한계가 얼마나 컸는지가 보입니다.

구글은 Gemini Live에 3.1 Flash Live를 탑재한 후 “대화 맥락을 두 배 더 길게 유지할 수 있다”고 발표했습니다. (출처: Google 공식 블로그, 2026.03.26) 길게 이야기할 때 중간에 내용을 반복할 필요가 줄었다는 뜻입니다.

그런데 이걸 반대쪽에서 읽으면, 이전 Gemini Live는 대화가 어느 선을 넘으면 앞 내용을 잊어버렸다는 뜻이기도 합니다. 음성 AI에서 맥락 유지는 텍스트 기반 AI보다 훨씬 어렵습니다. 스트리밍 오디오를 실시간으로 처리하면서 동시에 긴 대화 맥락을 메모리에 유지해야 하기 때문입니다.

3월 Gemini Drop에서 함께 나온 것들

이번 3월 업데이트는 Flash Live만이 아닙니다. 같은 시기에 Lyria 3 Pro(최대 3분 음악 생성), Personal Intelligence 무료 개방(미국 한정, Gmail·Photos·YouTube 연동), 다른 AI 서비스의 대화 기록 Gemini로 이전 기능이 함께 출시됐습니다. (출처: Google Gemini Drop, 2026.03.26)

이 중에서 한국 사용자 입장에서 당장 쓸 수 있는 것은 Flash Live 기반 Gemini Live와 Search Live 확장입니다. Personal Intelligence는 현재 미국만 무료 개방됐고 다른 지역 일정은 공개되지 않았습니다.

▲ 목차로 돌아가기

자주 묻는 질문 5가지

Q1

Gemini Live와 Search Live를 통한 일반 사용은 기존 구글 계정으로 접근 가능합니다. 단, Gemini Live의 일부 고급 기능은 Google AI Pro 구독이 필요합니다. 개발자용 API는 Google AI Studio에서 프리뷰 상태로 제공 중이며 별도 요금 기준은 아직 공식 발표 전입니다.

Q2

전혀 다른 모델입니다. Gemini 3.1 Flash-Lite는 3월 3일 출시된 저비용 텍스트/멀티모달 경량 모델이고, Gemini 3.1 Flash Live는 3월 26일 출시된 실시간 음성 대화 특화 모델입니다. Flash Live는 Gemini 3 Pro 아키텍처를 기반으로 합니다.

Q3
SynthID 워터마크가 있으면 AI 목소리인지 알 수 있나요?

귀로는 들을 수 없습니다. 워터마크는 오디오 파일에 비가청 방식으로 삽입되며, 감지하려면 구글의 SynthID 감지 도구가 필요합니다. 일반 사용자가 통화 중 실시간으로 AI 여부를 확인하는 방법은 현재 제공되지 않습니다.

Q4
Search Live를 한국에서 바로 쓸 수 있나요?

공식 발표 기준 200개 이상 국가 확장이 완료됐습니다. 단, Search Live는 구글 AI Mode가 활성화된 환경에서 작동합니다. AI Mode 자체가 특정 국가에서 아직 제한적으로 운영 중이라면 Search Live도 함께 제한될 수 있습니다. 구글 앱에서 검색창 아래 Live 아이콘이 나타나는지 확인하는 게 가장 빠릅니다.

Q5
기업이 이 모델로 AI 고객 상담을 구축하면 어떻게 되나요?

Gemini Enterprise for Customer Experience를 통해 기업용 API 접근이 가능합니다. Verizon, The Home Depot이 이미 워크플로우에 도입했고 긍정적인 피드백을 공유했습니다. 고객 입장에서는 응대 상대가 AI인지 인지하기 어려울 수 있기 때문에, 기업이 AI 상담 여부를 고객에게 고지하는 것이 책임 있는 운영 방식입니다.

▲ 목차로 돌아가기

마치며

Gemini 3.1 Flash Live는 실시간 음성 AI 분야에서 구글이 낸 가장 완성도 높은 모델입니다. ComplexFuncBench에서 90.8%라는 수치는 실제 업무 자동화에서 충분히 의미 있는 숫자입니다. 기업 고객 응대 자동화에 적용할 때 이전 세대 모델보다 훨씬 자연스러운 대화가 가능해졌다는 점은 부정하기 어렵습니다.

다만 솔직히 말하면, AudioMultiChallenge 36.1%라는 숫자가 계속 마음에 걸립니다. 실시간 범주 안에서는 1위지만, 비실시간 모델들이 이미 50% 이상을 받는다는 사실은 음성 AI 전체가 아직 갈 길이 멀다는 신호이기도 합니다. “가장 자연스럽다”는 말이 통하려면 이 간격이 더 좁혀져야 합니다.

SynthID 워터마크 문제는 기술이 아니라 윤리적 설계의 문제입니다. 인간이 듣는 것으로는 AI 여부를 확인할 수 없는 구조라면, 그 사실을 사용자에게 어떻게 알릴지는 기업의 몫으로 남습니다. 구글이 기술을 내놓는 속도만큼 이 부분에도 명확한 가이드라인이 나오길 기대합니다.

본 포스팅 참고 자료

  1. Google 공식 블로그 — Gemini 3.1 Flash Live 발표문 (2026.03.26)
    https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-live/
  2. Google DeepMind 모델 카드 — Gemini 3.1 Flash Live (2026.03.26)
    https://deepmind.google/models/model-cards/gemini-3-1-flash-live/
  3. Google 검색 공식 블로그 — Search Live 글로벌 확장 (2026.03.26)
    https://blog.google/products-and-platforms/products/search/search-live-global-expansion
  4. Ars Technica — Gemini 3.1 Flash Live 분석 (2026.03.26)
    https://arstechnica.com/ai/2026/03/the-debut-of-gemini-3-1-flash-live-could-make-it-harder-to-know-if-youre-talking-to-a-robot/
  5. Google Gemini Drop 3월 업데이트 (2026.03.26)
    https://blog.google/innovation-and-ai/products/gemini-app/gemini-drop-updates-march-2026/

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치와 기능 설명은 2026년 3월 26일 기준 공식 발표 자료를 바탕으로 작성됐습니다. Gemini API 요금, 기능 지원 국가 등 세부 사항은 구글 공식 사이트에서 최신 정보를 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기