Gemini 3.1 Flash Live, 빠를수록 잃는 것이 있습니다

magister

Published on

2026년 3월 29일

IT/AI/테크

📅 2026.03.26 기준
Preview 버전
IT/AI

Gemini 3.1 Flash Live, 빠를수록 잃는 것이 있습니다

구글이 “역대 최고 품질”이라고 발표했습니다. 공식 블로그 수치는 인상적합니다. 그런데 공식 API 문서를 옆에 놓고 비교하면 구버전에서 됐던 것들이 조용히 사라져 있습니다.

90.8%

ComplexFuncBench Audio

36.1%

AudioMultiChallenge 1위

200+

지원 국가/지역

2배

대화 유지 시간

Gemini 3.1 Flash Live가 뭔지 먼저 짚고 갑니다

구글은 2026년 3월 26일, Gemini 3.1 Flash Live를 공식 출시했습니다. 이 모델은 Gemini Live API를 통해 실시간 음성·비전 대화를 처리하는 “네이티브 오디오 모델”입니다. 텍스트를 음성으로 변환하는 TTS 방식이 아니라, 오디오 자체를 이해하고 오디오로 바로 응답하는 구조입니다. (출처: Google DeepMind 모델 카드, 2026.03.26)

구조적으로 보면 Gemini 3.1 Flash Live는 Gemini 3 Pro를 기반으로 합니다. 공식 모델 카드에 그대로 나와 있습니다. Flash라는 이름에 담긴 핵심은 지연 시간을 줄이는 것이고, Live는 실시간 스트리밍 대화를 뜻합니다. 개발자들은 Google AI Studio에서 프리뷰 버전으로 바로 접근할 수 있고, 기업은 “고객 경험용 Gemini Enterprise”에서, 일반 사용자는 Gemini Live 앱과 Search Live에서 만날 수 있습니다.

입력 포맷은 16비트 PCM 오디오(16kHz), JPEG 이미지(초당 최대 1프레임), 텍스트이고, 출력은 24kHz PCM 오디오입니다. 통신 방식은 Stateful WebSocket(WSS)입니다. 공식 API 문서에 정확히 이렇게 나와 있습니다. (출처: Gemini Live API 공식 문서, ai.google.dev)

▲ 목차로 돌아가기

벤치마크 1위, 근데 비교 상대가 다릅니다

구글은 두 가지 벤치마크 수치를 발표했습니다. Scale AI의 AudioMultiChallenge에서 36.1%(Thinking 모드 활성화 기준)로 1위, ComplexFuncBench Audio에서 90.8%로 1위입니다. (출처: Google 공식 블로그, 2026.03.26) 숫자만 보면 압도적입니다.

💡 공식 발표 수치와 벤치마크 설명을 같이 놓고 보면 이런 차이가 보였습니다.

AudioMultiChallenge 36.1%는 실시간 대화형 모델 중 1위입니다. 그런데 Ars Technica의 분석에 따르면, 대화형이 아닌 일반 오디오 모델들은 같은 벤치마크에서 50% 이상을 기록합니다. (출처: Ars Technica, 2026.03.26) 1위라는 타이틀 뒤에 있는 조건을 먼저 확인해야 합니다.

ComplexFuncBench Audio의 경우도 원래 텍스트-to-텍스트 벤치마크를 음성용으로 변환해서 측정한 것입니다. 공식 모델 카드에 “This was originally a text-to-text evaluation, we synthesized audio for each prompt”라고 명시되어 있습니다. 실제 현장 음성 환경과 다를 수 있습니다.

벤치마크	3.1 Flash Live 점수	비교 기준	주목할 점
AudioMultiChallenge	36.1% (1위)	실시간 대화형 모델 내 비교	비실시간 모델은 50%+ 기록
ComplexFuncBench Audio	90.8% (1위)	이전 모델 대비	텍스트 벤치마크를 오디오 변환 적용

표 출처: Google 공식 블로그(2026.03.26), Google DeepMind 모델 카드(2026.03.26), Ars Technica(2026.03.26)

▲ 목차로 돌아가기

구버전에서 됐던 것들이 지금은 안 됩니다

발표 자료에는 새로 생긴 기능이 강조되지만, 공식 API 마이그레이션 문서를 보면 이전 버전(Gemini 2.5 Flash Live)에서 지원되던 기능이 3.1 Flash Live에서 빠져 있는 것들이 있습니다. 이건 블로그 포스팅에서 거의 다루지 않는 부분입니다.

💡 공식 비교 문서와 실제 마이그레이션 가이드를 교차해서 보면 이 패턴이 보입니다.

더 새로운 버전이라고 해서 무조건 기능이 더 많은 게 아닙니다. 3.1은 속도 최적화를 위해 일부 기능을 포기했습니다.

공식 Live API 가이드 비교표에서 직접 확인한 내용입니다. (출처: ai.google.dev/gemini-api/docs/live-guide, 2026.03.26 기준)

기능	3.1 Flash Live	2.5 Flash Live (이전)
비동기 함수 호출 (Non-blocking)	❌ 미지원	✅ 지원
Proactive Audio	❌ 미지원	✅ 지원
Affective Dialog	❌ 미지원	✅ 지원
대화 중 send_client_content	⚠️ 초기 컨텍스트만 가능	✅ 대화 중 지속 가능
Thinking 설정 방식	thinkingLevel (minimal 기본값)	thinkingBudget (Dynamic 기본)

출처: Gemini Live API Guide 공식 비교표 (ai.google.dev, 2026.03.26 기준)

비동기 함수 호출이 빠진 건 실제 에이전트 개발에서 체감됩니다. 2.5 Flash Live에서는 외부 API를 호출하는 동안 모델이 계속 사용자와 대화할 수 있었는데, 3.1에서는 함수 호출 결과가 돌아올 때까지 기다려야 합니다. 복잡한 실시간 에이전트를 만들 때 이 부분이 병목이 될 수 있습니다.

▲ 목차로 돌아가기

“대화 2배 길게”의 진짜 조건

구글은 “이전 모델 대비 대화의 흐름을 2배 더 길게 유지할 수 있다”고 발표했습니다. (출처: Google 공식 블로그, 2026.03.26) 장시간 브레인스토밍 중에도 문맥을 유지한다는 설명입니다. 2배면 꽤 큰 변화처럼 들립니다.

그런데 세션 자체의 물리적 한도는 공식 문서에 고정되어 있습니다. 오디오 전용 세션은 최대 15분, 오디오+비디오 세션은 최대 2분입니다. (출처: Gemini Live API 공식 문서, ai.google.dev) 128K 토큰의 컨텍스트 윈도우를 가지고 있어도, 세션이 끊기면 이야기는 달라집니다.

💡 “2배 길어진 대화”와 “세션 제한 15분”을 같이 놓고 보면 이런 그림이 나옵니다.

모델이 기억하는 맥락이 2배 늘었다는 건 같은 15분 안에서 더 깊이 이야기할 수 있다는 뜻입니다. 15분 자체가 늘어난 게 아닙니다. 장시간 연속 대화가 필요하다면 Session Resumption 기법을 별도로 구현해야 합니다.

Thinking 기능의 기본 설정도 눈여겨볼 만합니다. 3.1 Flash Live의 `thinkingLevel` 기본값은 `minimal`입니다. 공식 문서에 “optimize for lowest latency”를 위해 이렇게 설정했다고 직접 나와 있습니다. (출처: Gemini Live API 공식 문서, ai.google.dev) 추론 능력을 더 쓰고 싶으면 `low`, `medium`, `high`로 올리면 되지만, 그만큼 응답 속도는 느려집니다. 속도와 추론 중 하나를 선택해야 하는 구조입니다.

▲ 목차로 돌아가기

SynthID 워터마크가 뜻하는 것

Gemini 3.1 Flash Live가 만들어내는 모든 오디오에는 SynthID 워터마크가 자동 삽입됩니다. 이 워터마크는 사람 귀로는 들리지 않지만, 기술적으로 탐지 가능한 방식으로 오디오 파형 안에 직접 녹아들어 있습니다. AI가 만든 음성임을 식별하기 위한 장치입니다. (출처: Google 공식 블로그, 2026.03.26)

왜 이걸 지금 넣었을까요? Ars Technica는 구글이 이 워터마크를 이번에 도입한 배경을 이렇게 분석했습니다. “Gemini 3.1 Flash Live는 사람 목소리와 너무 비슷해져서, 구글이 AI 플래그를 달 필요를 느꼈을 것이다.” (출처: Ars Technica, 2026.03.26) 모델이 더 자연스러워질수록 AI임을 식별할 수단도 더 중요해진다는 뜻입니다.

Verizon, The Home Depot, LiveKit 등 기업들이 이미 실제 고객 응대 워크플로우에 3.1 Flash Live를 도입했고 긍정적인 피드백을 공유했습니다. 다음에 콜센터에 전화했을 때 자연스러운 목소리가 AI일 수도 있고, SynthID는 그걸 잡아내는 수단입니다. 다만, SynthID는 사람이 귀로 알아채는 걸 도와주지는 못합니다.

▲ 목차로 돌아가기

개발자가 실제로 쓸 수 있는 조건

개발자 관점에서 접근 방법은 두 가지입니다. 서버-to-서버 방식(백엔드에서 WebSocket으로 연결)과 클라이언트-to-서버 방식(프론트엔드에서 직접 연결)입니다. 클라이언트-to-서버 방식을 쓸 때는 반드시 임시 토큰(Ephemeral Tokens)을 사용해야 합니다. 보안 리스크를 줄이기 위한 공식 요구사항입니다. (출처: Gemini Live API 공식 문서)

지원 언어는 공식 문서 기준 97개입니다. 발표문에는 “70개 지원 언어”라고도 나와 있는데, 이건 Live API 소개 페이지(70개)와 상세 가이드 페이지(97개)가 서로 다른 숫자를 보여주고 있는 상황입니다. 구글이 공식 답변을 내놓지 않은 부분입니다. 한국어는 양쪽 모두에 포함되어 있습니다.

💡 두 개 공식 문서가 서로 다른 숫자를 보여주는 점을 직접 확인했습니다.

97개 언어 리스트에는 한국어(ko)가 포함되어 있습니다. 지원 언어 수 자체보다는 한국어가 포함되어 있는지가 실사용에서 중요합니다.

오디오 응답만 나온다는 점도 기억해야 합니다. 네이티브 오디오 모델 특성상 응답 양식이 AUDIO로 고정됩니다. 텍스트가 필요하면 출력 오디오 트랜스크립션 기능을 추가로 설정해야 합니다. 이건 기본값이 아닙니다. 공식 문서의 “Limitations” 항목에 첫 번째로 나오는 내용입니다. (출처: Gemini Live API 공식 문서)

항목	공식 스펙
오디오 전용 세션 최대 길이	15분
오디오+비디오 세션 최대 길이	2분
컨텍스트 윈도우	128K 토큰
입력 오디오 포맷	16비트 PCM, 16kHz, little-endian
출력 오디오 포맷	24kHz PCM
Thinking 기본값	minimal (최저 지연 최적화)
응답 기본 형식	AUDIO만 (텍스트 원하면 별도 설정 필요)
모델 ID	gemini-3.1-flash-live-preview

출처: Gemini Live API 공식 문서 (ai.google.dev, 2026.03.26 기준)

▲ 목차로 돌아가기

Q&A — 자주 나오는 질문 5가지

Q. Gemini 3.1 Flash Live는 무료로 쓸 수 있나요?

2026년 3월 29일 기준, Google AI Studio를 통해 프리뷰 버전으로 무료 접근이 가능합니다. 다만 프리뷰는 정식 출시 전 단계라 요금 정책이나 접근 조건이 바뀔 수 있습니다. 기업용 “Gemini Enterprise for Customer Experience”는 별도 요금제가 적용됩니다. 최신 요금 정보는 Google AI Studio 및 Google Cloud 공식 페이지에서 확인해야 합니다.

Q. Gemini 2.5 Flash Live에서 3.1로 업그레이드하면 기존 코드가 그대로 동작하나요?

그대로 동작하지 않을 가능성이 높습니다. 공식 문서에 마이그레이션 가이드가 별도로 존재합니다. 비동기 함수 호출, send_client_content 사용 방식, Thinking 설정 방식이 달라졌습니다. 특히 `thinkingBudget` 대신 `thinkingLevel`을 사용하도록 바뀌었고, Proactive Audio나 Affective Dialog를 구현했다면 해당 기능이 3.1에서 빠져 있어 별도 대응이 필요합니다.

Q. 한국어로 실시간 대화가 가능한가요?

가능합니다. 공식 API 문서 지원 언어 목록에 한국어(ko)가 포함되어 있습니다. 다만 네이티브 오디오 모델은 언어 코드를 명시적으로 설정하는 방식이 지원되지 않고 모델이 자동으로 언어를 감지합니다. 한국어를 강제로 고정하는 파라미터는 공식 문서에 없습니다.

Q. 실시간 통역이나 실시간 번역에도 쓸 수 있나요?

기술적으로는 가능합니다. 97개 언어를 지원하고, 멀티모달 입력과 오디오 출력이 동시에 됩니다. 실제로 Search Live의 200개 이상 국가 글로벌 확장에 이 모델이 적용됩니다. 다만 실시간 통역 에이전트로 사용할 경우 세션 제한(오디오 전용 15분)을 고려해야 하고, 비동기 함수 호출이 안 되는 점도 워크플로우 설계 시 감안해야 합니다.

Q. SynthID 워터마크가 실제로 탐지됩니까? 우회는 가능한가요?

SynthID는 사람 귀에는 들리지 않지만 기술적으로 탐지 가능한 워터마크입니다. 구글은 2024년 10월 SynthID를 오픈소스 툴킷으로 공개했습니다. (출처: Google SynthID 공식 발표) 우회 가능성에 대해서는 구글이 공식 입장을 별도로 밝히지 않았습니다. 오디오 압축이나 변환 과정에서 워터마크가 손상될 수 있다는 것이 일반적인 기술적 한계입니다.

▲ 목차로 돌아가기

마치며

Gemini 3.1 Flash Live는 실시간 음성 AI 분야에서 구글이 내놓은 실질적인 업그레이드입니다. ComplexFuncBench Audio 90.8%, AudioMultiChallenge 36.1% 모두 같은 카테고리에서는 현재 선두입니다. 대화 맥락 유지 2배, 배경 소음 필터링 개선, 97개 언어 지원, 200개 이상 국가 Search Live 확장 — 수치는 인상적입니다.

그런데 공식 문서를 함께 열어보면 다른 면이 보입니다. 구버전에서 지원됐던 비동기 함수 호출, Proactive Audio, Affective Dialog가 빠졌고, Thinking 기본값은 최저 수준으로 내려갔습니다. 속도를 높이기 위해 치른 트레이드오프입니다. AudioMultiChallenge 1위도 비실시간 모델들과의 비교가 아닙니다. 발표 자료와 API 문서를 같이 읽어야 하는 이유가 여기 있습니다.

아직 프리뷰 단계입니다. 개발자라면 지금 AI Studio에서 무료로 테스트해볼 수 있고, 2.5 Flash Live에서 넘어올 계획이라면 마이그레이션 가이드부터 먼저 읽는 게 순서입니다. 서비스 정책·기능은 앞으로도 계속 바뀔 것입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

⚠️ 본 포스팅은 2026년 3월 26일~29일 기준 공식 자료를 바탕으로 작성되었습니다. Gemini 3.1 Flash Live는 현재 프리뷰 단계이며, 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 수록된 수치·기능·제한 사항은 정식 출시 시 달라질 수 있으므로 최신 내용은 공식 문서에서 직접 확인하시기 바랍니다.

구글 실시간 음성 AI, Gemini 3.1 Flash Live, Gemini Live API, Google AI Studio, 음성 에이전트

Gemini 3.1 Flash Live, 빠를수록 잃는 것이 있습니다

Gemini 3.1 Flash Live, 빠를수록 잃는 것이 있습니다

Gemini 3.1 Flash Live가 뭔지 먼저 짚고 갑니다

벤치마크 1위, 근데 비교 상대가 다릅니다

구버전에서 됐던 것들이 지금은 안 됩니다

“대화 2배 길게”의 진짜 조건

SynthID 워터마크가 뜻하는 것

개발자가 실제로 쓸 수 있는 조건

Q&A — 자주 나오는 질문 5가지

마치며

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Gemini 3.1 Flash Live, 빠를수록 잃는 것이 있습니다

Gemini 3.1 Flash Live, 빠를수록 잃는 것이 있습니다

Gemini 3.1 Flash Live가 뭔지 먼저 짚고 갑니다

벤치마크 1위, 근데 비교 상대가 다릅니다

구버전에서 됐던 것들이 지금은 안 됩니다

“대화 2배 길게”의 진짜 조건

SynthID 워터마크가 뜻하는 것

개발자가 실제로 쓸 수 있는 조건

Q&A — 자주 나오는 질문 5가지

마치며

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기