Gemini 3.1 Flash Live, 최고라더니 이 부분은 빠졌습니다

Published on

in

Gemini 3.1 Flash Live, 최고라더니 이 부분은 빠졌습니다

2026.03.27 출시 기준
gemini-3.1-flash-live-preview

Gemini 3.1 Flash Live, 최고라더니 이 부분은 빠졌습니다

구글이 2026년 3월 27일 공식 출시한 Gemini 3.1 Flash Live는 구글 최고 품질 음성 모델로 소개됐습니다. 실시간 대화 속도가 빨라지고, 200개국 이상에서 다국어 음성 검색이 가능해졌습니다. 그런데 공식 API 문서를 직접 열어 보면, 이전 버전(2.5 Flash Native Audio)에서 됐던 기능이 3가지나 사라져 있습니다. 성능이 올라갔는데 기능이 빠진 것, 이게 왜 중요한지부터 짚겠습니다.

90.8%
ComplexFuncBench Audio 1위
200개국+
Search Live 글로벌 확대
128K
입력 토큰 컨텍스트 윈도우

Gemini 3.1 Flash Live가 뭔가요?

2026년 3월 27일, 구글은 Gemini 3.1 Flash Live를 공식 출시했습니다. 이름만 보면 Gemini 3.1 시리즈의 Flash 경량 모델처럼 들리지만, 실제로는 목적이 완전히 다른 모델입니다. 텍스트 추론이 아니라 실시간 음성·영상 대화에 특화된 모델로, 구글 공식 발표에는 “구글 최고 품질의 오디오 및 음성 모델”이라고 직접 명시돼 있습니다. (출처: Google Blog, 2026.03.26)

이 모델은 세 가지 경로로 제공됩니다. 개발자는 Google AI Studio의 Gemini Live API에서 프리뷰 버전으로 접근할 수 있고, 기업은 ‘고객 경험용 Gemini Enterprise’에서 쓸 수 있습니다. 일반 사용자는 이미 Gemini 앱의 Gemini Live 기능과 Google 검색의 Search Live에서 이 모델을 통해 대화하고 있습니다. 즉, 출시 첫날부터 스마트폰 구글 앱을 쓰는 사람이라면 이미 이 모델과 대화한 셈입니다.

API 모델명은 gemini-3.1-flash-live-preview이며, 입력 토큰 한도 128K, 출력 토큰 한도 64K입니다. 텍스트, 이미지, 오디오, 영상을 입력으로 받고 텍스트와 오디오로 출력합니다. (출처: Google AI for Developers 공식 문서, 2026.03)

▲ 목차로 돌아가기

벤치마크 숫자, 실제로 어떻게 봐야 하나요

구글 공식 발표에는 두 가지 벤치마크 수치가 나옵니다. 첫째, 복잡한 다단계 함수 호출을 측정하는 ComplexFuncBench Audio에서 90.8% 1위를 기록했습니다. 여기까지만 보면 압도적입니다. (출처: Google Blog, 2026.03.26) 복잡한 여행 예약처럼 여러 툴을 순서대로 써야 하는 작업에서 이전 모델을 크게 앞질렀다는 의미입니다.

💡 공식 발표 수치와 실제 사용 맥락을 함께 놓고 보니 이런 차이가 보였습니다.

Scale AI의 AudioMultiChallenge에서 Gemini 3.1 Flash Live는 “thinking” 모드를 켠 상태에서 36.1%를 기록하며 실시간 오디오 모델 중 1위를 차지했습니다. 그런데 같은 테스트에서 대화형이 아닌 일반 오디오 모델들은 50% 이상을 쉽게 넘깁니다. (출처: Ars Technica, 2026.03.27) 즉, 실시간 음성 모델 중엔 1등이지만, 절대 점수 기준으로는 아직 절반을 넘지 못합니다.

이 차이가 실제로 어떤 의미인지 직접 따라볼 수 있는 형태로 정리하면 이렇습니다. AudioMultiChallenge는 실제 대화에서 흔히 나오는 말 끊김, 망설임, 장기 추론을 같이 평가합니다. 단순 텍스트나 사전 녹음된 음성으로 테스트하는 일반 모델과 같은 조건이 아닙니다. 조건 자체가 달라서 비교가 유리한 방향으로 설계돼 있다는 점도 봐야 합니다.

벤치마크 점수 평가 대상
ComplexFuncBench Audio 90.8% 다단계 함수 호출 성공률
AudioMultiChallenge (thinking ON) 36.1% 복잡한 지시 + 장기 추론 (실시간 대화형 1위)
비대화형 오디오 모델 (참고) 50%+ 동일 AudioMultiChallenge 기준 (실시간 아님)

▲ 목차로 돌아가기

일반 사용자가 느끼는 변화 — Gemini Live와 Search Live

스마트폰 구글 앱 기준으로 체감 변화는 두 가지입니다. 먼저 Gemini Live에서 응답 속도가 빨라졌고, 한 번의 대화 세션에서 맥락을 유지할 수 있는 시간이 이전 모델 대비 2배 길어졌습니다. (출처: Google Blog, 2026.03.26) 긴 브레인스토밍 도중 맥락이 날아가지 않는다는 뜻입니다.

다음으로 Search Live가 이날을 기점으로 200개국 이상에 글로벌 확대됐습니다. 구글 앱 Android·iOS에서 검색창 아래 라이브 아이콘을 탭하면 됩니다. 카메라를 켜면 눈앞에 보이는 물건에 대한 대화도 가능합니다. 구글 렌즈에서 하단의 Live 버튼을 눌러도 진입할 수 있습니다. (출처: Google Search Blog, 2026.03.26) 한국어도 지원 언어에 포함돼 있고, 90개 이상 언어를 기본적으로 처리합니다.

또 하나 주목할 부분은 SynthID 워터마크입니다. 이 모델이 생성하는 모든 오디오에는 사람 귀로는 들리지 않는 워터마크가 삽입됩니다. AI가 생성한 목소리임을 검증할 수 있는 장치입니다. Verizon, Home Depot 같은 기업들이 이미 실 서비스에 도입한 이유 중 하나이기도 합니다.

▲ 목차로 돌아가기

업그레이드인데 사라진 기능이 있습니다

솔직히 말하면, 이 부분을 공식 문서에서 확인하기 전엔 몰랐습니다. Gemini 3.1 Flash Live API 공식 문서의 ‘2.5에서 마이그레이션’ 섹션에는 아래 세 가지가 명확하게 적혀 있습니다.

💡 공식 API 문서에서 직접 확인한 내용입니다 — 이전 버전 대비 미지원 항목

  • 비동기 함수 호출 (Async Function Calling) — 현재 미지원. 함수 호출은 동기 방식만 가능. 도구 응답을 보내기 전까지 모델이 응답을 시작하지 않습니다.
  • 선제적 오디오 (Proactive Audio) — 현재 미지원. 기존 코드에서 이 설정을 제거해야 합니다.
  • 감정 대화 (Affective Dialogue) — 현재 미지원. 기존 코드에서 제거 필요.

(출처: Google AI for Developers 공식 문서 — gemini-3.1-flash-live-preview 마이그레이션 가이드, 2026.03)

비동기 함수 호출이 빠진 건 실제 서비스 개발에서 꽤 아픈 부분입니다. 예를 들어 사용자가 “오늘 날씨 알려줘”라고 말하면, 모델이 날씨 API를 호출하고 그 결과를 받아올 때까지 기다려야 합니다. 그 사이 모델은 아무 말도 못 합니다. 2.5 버전에선 “잠깐, 지금 확인하고 있어요”처럼 중간 응답을 내보낼 수 있었습니다.

선제적 오디오는 모델이 먼저 말을 걸 수 있는 기능이고, 감정 대화는 사용자의 감정 톤에 맞춰 반응을 조정하는 기능입니다. 둘 다 “더 사람처럼 느껴지는” 경험을 만드는 요소인데, 이번 버전에서는 빠졌습니다. 이유는 공식 문서에서 별도로 밝히지 않았습니다.

▲ 목차로 돌아가기

“Flash”라는 이름이 오해를 부릅니다

Gemini 모델 라인업을 자주 보신 분이라면 “Flash”를 Gemini Pro보다 가벼운 경량 모델로 이해하고 있을 겁니다. 실제로 Gemini 3.1 Flash-Lite처럼 비용 효율을 위한 Flash 계열도 있습니다. 그런데 Gemini 3.1 Flash Live는 다릅니다.

💡 이름의 계보를 공식 모델 카드와 함께 살펴보니 이 구조가 보였습니다.

Google DeepMind 공식 모델 카드에는 이렇게 나옵니다. “Gemini 3.1 Flash Live is based on Gemini 3 Pro.” (출처: DeepMind Model Card, 2026.03.26) Flash 계열 독자 아키텍처가 아니라, Gemini 3 Pro를 기반으로 실시간 오디오에 최적화한 변형 모델입니다.

이름에 “Flash”가 붙은 건 경량이라서가 아니라, 낮은 지연 시간(low-latency)빠른 대화 흐름을 의미하는 용도입니다. 아키텍처 무게는 Gemini 3 Pro 기반이고, 목적 자체가 실시간 음성 대화에 집중돼 있습니다. 그래서 텍스트 추론 벤치마크가 아니라 오디오 특화 벤치마크로 평가를 받고 있는 겁니다.

이 맥락을 모르면 “Flash니까 싸고 가벼운 거 아냐?”라는 기대로 접근하다 당황하게 됩니다. 개발자라면 특히 비용 구조를 별도로 확인해야 합니다. 현재 API 문서 기준으로 별도 가격표가 공개돼 있지 않고, 프리뷰 단계라 최종 요금 정책은 아직 나오지 않은 상태입니다.

▲ 목차로 돌아가기

개발자라면 ADK 문제도 확인하세요

구글 공식 GitHub 이슈 트래커에는 출시 직후인 2026년 3월 27일에 올라온 보고가 있습니다. ADK(Agent Development Kit) Python 라이브러리가 Gemini 3.1 Flash Live를 아직 지원하지 못한다는 내용입니다. (출처: google/adk-python GitHub Issues #5018, 2026.03.27) raw google-genai SDK로는 정상 연결되지만, ADK가 라이브 세션을 오케스트레이션하는 방식에서 문제가 발생하고 있습니다.

기존에 2.5 버전 기반의 음성 에이전트를 ADK로 구축한 팀이라면, 무작정 모델 스트링만 교체하면 바로 작동하지 않을 수 있습니다. 공식 마이그레이션 가이드에서 변경해야 하는 항목을 정리하면 다음과 같습니다.

항목 2.5 Flash Native Audio 3.1 Flash Live
모델 스트링 gemini-2.5-flash-native-audio-preview-12-2025 gemini-3.1-flash-live-preview
사고 설정 thinkingBudget thinkingLevel (minimal/low/medium/high)
비동기 함수 호출 지원 미지원 (동기만 가능)
선제적 오디오 지원 미지원
감정 대화 지원 미지원
기본 턴 커버리지 TURN_INCLUDES_ONLY_ACTIVITY TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO

특히 기본 턴 커버리지 변경은 주의가 필요합니다. 영상 프레임을 상시로 전송하는 구조라면 3.1로 올리는 순간 불필요한 비용이 발생할 수 있습니다. 오디오 활동이 있을 때만 영상 프레임을 보내도록 코드를 조정해야 합니다. (출처: Google AI for Developers 공식 문서, 2026.03)

▲ 목차로 돌아가기

Q&A

Gemini 3.1 Flash Live는 무료로 쓸 수 있나요?
현재 Google AI Studio에서 프리뷰 버전으로 API 키를 발급받으면 접근할 수 있습니다. 최종 가격 정책은 아직 공식 발표가 없고, 일반 사용자는 구글 앱의 Gemini Live·Search Live를 통해 별도 비용 없이 체험할 수 있습니다.
한국어로도 실시간 음성 대화가 가능한가요?
네. 3.1 Flash Live는 90개 이상 언어를 기본 지원하고, Search Live 글로벌 확대 발표에도 한국어가 포함됩니다. Google 앱에서 Search Live 아이콘을 눌러 한국어로 말하면 바로 작동합니다. (출처: Google Search Blog, 2026.03.26)
기존 2.5 Flash Native Audio 앱을 3.1로 올리면 바로 되나요?
모델 스트링만 바꾸면 대부분은 작동하지만, 비동기 함수 호출·선제적 오디오·감정 대화를 쓰고 있었다면 코드 수정이 필요합니다. ADK를 쓰는 구조라면 별도 이슈도 있으니 GitHub 이슈 트래커를 먼저 확인하는 게 낫습니다.
SynthID 워터마크는 사용자에게 어떤 영향이 있나요?
사람 귀로는 전혀 들리지 않으니 음질에 영향을 주지 않습니다. AI 생성 오디오인지 별도 도구로 검증할 수 있다는 의미입니다. AI 목소리를 실제 사람 목소리로 속이는 딥페이크 음성 대응 차원에서 의미가 있습니다. (출처: DeepMind Model Card, 2026.03)
Gemini 3.1 Flash Live와 Gemini 3.1 Flash-Lite는 같은 건가요?
완전히 다른 모델입니다. Flash-Lite는 텍스트 중심의 저비용 경량 모델이고, Flash Live는 실시간 음성·영상 대화 전용 모델입니다. 둘 다 “Flash”라는 이름을 쓰지만 목적과 구조가 다릅니다.

▲ 목차로 돌아가기

마치며

Gemini 3.1 Flash Live는 실시간 음성 AI 모델로서 분명히 앞 단계를 밟았습니다. ComplexFuncBench Audio 90.8%, 대화 맥락 유지 2배, 200개국 Search Live 확대 — 숫자 자체는 진짜입니다. 구글이 처음부터 “이건 음성 대화 전용 모델”이라고 명확히 선을 긋고 있는 것도 솔직한 편입니다.

다만 “최고 품질”이라는 말에 기대치를 높이면, AudioMultiChallenge 36.1%라는 절대 점수가 생각보다 낮게 보일 수 있습니다. 비대화형 모델이 같은 테스트에서 50%를 쉽게 넘는다는 맥락을 같이 봐야 합니다. 2.5에서 되던 기능 3가지가 없어진 것도 공식 문서를 직접 보지 않으면 놓치기 쉽습니다.

일반 사용자라면 지금 구글 앱 열고 Search Live 눌러보는 게 가장 빠릅니다. 개발자라면 모델 스트링 교체 전에 마이그레이션 가이드를 한 번 읽고, ADK 이슈도 확인한 뒤 진행하는 걸 권합니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Google Blog — Gemini 3.1 Flash Live 공식 발표 (2026.03.26)

    https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-live/
  2. Google DeepMind Model Card — Gemini 3.1 Flash Live (2026.03.26)

    https://deepmind.google/models/model-cards/gemini-3-1-flash-live/
  3. Google AI for Developers — gemini-3.1-flash-live-preview API 문서 (2026.03)

    https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-live-preview
  4. Google Search Blog — Search Live 글로벌 확대 (2026.03.26)

    https://blog.google/products-and-platforms/products/search/search-live-global-expansion/
  5. Ars Technica — Gemini 3.1 Flash Live 분석 기사 (2026.03.27)

    https://arstechnica.com/ai/2026/03/the-debut-of-gemini-3-1-flash-live-could-make-it-harder-to-know-if-youre-talking-to-a-robot/

본 포스팅은 2026년 3월 29일 기준으로 작성됐습니다.
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.
API 스펙, 지원 기능, 요금 정책 등은 구글 공식 문서에서 최신 내용을 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기