2026.03.26 기준
Gemini Live API v1alpha
IT/AI

Gemini 3.1 Flash Live,
3가지 수치로 직접 확인했습니다

구글이 3월 26일 내놓은 Gemini 3.1 Flash Live를 두고 “역대 최고 음성 AI”라는 말이 많습니다. ComplexFuncBench Audio 벤치마크 90.8%, AudioMultiChallenge 1위, 200개국 동시 확장. 숫자만 보면 압도적인데, 막상 쓰려고 공식 문서를 열면 보이는 게 있습니다.

90.8%

ComplexFuncBench Audio 1위

200+개국

Search Live 동시 확장

15분

오디오 전용 세션 최대 시간

Gemini 3.1 Flash Live가 나온 배경

Gemini 3.1 Flash Live는 2026년 3월 26일 구글이 공개한 음성 특화 멀티모달 모델입니다. 공식 발표문에 따르면 “지금까지 구글이 만든 가장 높은 품질의 오디오·음성 모델”이라고 소개합니다. (출처: 구글 공식 블로그, 2026.03.26)

이 모델이 등장한 직접적인 계기는 두 가지입니다. 하나는 구글 Search Live의 글로벌 확장이고, 다른 하나는 기업 고객용 Gemini Enterprise for Customer Experience에서 실사용 가능한 수준의 음성 에이전트 기술이 필요해졌기 때문입니다. 기존 Gemini 2.5 Flash Native Audio 모델이 있었지만, 소음 환경이나 감정 표현 감지 면에서 기업들의 요구를 충족하지 못했다는 게 구글 측 설명입니다.

구조적으로 이 모델은 Gemini 3 Pro를 기반으로 파생됐습니다. 모델 카드에 “Gemini 3.1 Flash Live is based on Gemini 3 Pro”라고 직접 명시돼 있습니다. (출처: DeepMind 모델 카드, 2026.03.26) 즉, 경량 플래시 모델이면서도 3세대 프로 아키텍처의 언어 이해 능력을 음성 영역으로 끌어온 구조입니다.

💡 공식 발표문과 모델 카드를 같이 놓고 보니 이런 차이가 보였습니다. 발표 블로그에서는 Gemini 3.1 Flash Live를 독립적인 신모델처럼 소개하지만, 실제 모델 카드에는 “아키텍처·학습 데이터·하드웨어 모두 Gemini 3 Pro를 참조하라”고 나옵니다. 완전히 새로 만든 모델이 아니라 3 Pro를 음성 영역으로 특화한 파생 모델에 가깝습니다.

▲ 목차로 돌아가기

벤치마크 수치 3가지, 직접 뜯어봤습니다

구글이 공개한 벤치마크는 세 가지입니다. 숫자만 보면 대단해 보이는데, 각각 무엇을 측정하는지 이해하고 나면 쓰임새가 명확해집니다.

① ComplexFuncBench Audio — 90.8%가 의미하는 것

이 벤치마크는 여행 예약처럼 여러 단계에 걸친 함수 호출을 음성으로 수행할 수 있는지 평가합니다. Gemini 3.1 Flash Live는 이전 모델 대비 90.8%의 성능을 기록했습니다. (출처: 구글 공식 블로그, 2026.03.26) 쉽게 말하면, 음성으로 “내일 서울에서 부산 가는 기차 예약하고, 숙소도 잡아줘” 같은 복합 요청을 끊기지 않고 처리하는 능력입니다. 단순 Q&A가 아니라 음성 기반 에이전트 시나리오에서의 점수입니다.

② AudioMultiChallenge — 36.06%가 1위인 이유

Scale AI의 이 벤치마크에서 Gemini 3.1 Flash Live는 Thinking 모드 활성화 시 36.06%를 기록했습니다. (출처: 구글 공식 블로그, 2026.03.26) 얼핏 보면 36%라는 숫자가 낮아 보일 수 있는데, 이 테스트 자체가 대화 중 망설임·말 끊기·장시간 추론 같은 까다로운 상황을 집어넣어 평가하는 구조입니다. 전체 모델 중 1위라는 뜻이고, 그만큼 현재 실시간 오디오 AI 전반이 아직 어렵다는 반증이기도 합니다.

③ BigBench Audio — 실제 생활 소리 이해력

1,000개 오디오 녹음으로 음성 이해·배경음 인식·억양 식별 등 5가지 능력을 평가합니다. Gemini 3.1 Flash Live는 이 항목에서도 선두권입니다. (출처: 구글 공식 블로그 벤치마크 차트, 2026.03.26) 소음 환경에서 복잡한 지시를 따르는 능력입니다. 이 점수가 높다는 건 카페나 길거리에서 써도 엉뚱한 답이 덜 나온다는 뜻입니다.

벤치마크	점수	측정 내용
ComplexFuncBench Audio	90.8%	다단계 음성 함수 호출
AudioMultiChallenge	36.06% (1위)	장시간 대화·지시 이행
BigBench Audio	선두권	실생활 음성·배경음 이해

(출처: Google 공식 블로그 blog.google, 2026.03.26)

▲ 목차로 돌아가기

200개국 확장, 한국에서 바로 쓸 수 있나요?

Search Live의 200개국 글로벌 확장은 3월 26~27일 동시에 발표됐습니다. 구글 공식 발표에 “한국을 포함해 AI 모드가 지원되는 전 세계 200개 이상 국가”라고 명시돼 있습니다. (출처: Google Search 공식 블로그, 2026.03.26) 동아일보·매일경제도 같은 날 한국 포함 내용을 보도했습니다.

접근 방법은 간단합니다. Android 또는 iOS 구글 앱을 열고 검색창 아래 Live 아이콘을 탭하면 됩니다. 카메라를 켜면 Google Lens와 결합해 눈앞에 보이는 물체를 음성으로 설명받는 것도 됩니다. 다만 한 가지 조건이 있습니다. Search Live는 “AI 모드가 지원되는 지역”에서만 작동합니다. 구글 AI 모드 자체가 아직 전 국가에 동일하게 배포되지 않은 기능이기 때문에, 앱을 업데이트해도 아이콘이 보이지 않는다면 AI 모드 활성화 여부를 먼저 확인해야 합니다.

💡 “200개국 동시 출시”라는 표현을 보면 당연히 모든 기기에서 바로 된다고 생각하기 쉽습니다. 실제로는 구글 AI 모드 자체가 활성화된 계정·기기에 한해서만 Search Live 아이콘이 노출됩니다. 출시 당일 한국 사용자 중 일부가 아이콘을 찾지 못한 이유가 여기 있습니다.

▲ 목차로 돌아가기

세션 한도, 발표문에 없는 조건이 있습니다

구글 공식 블로그에는 “더 빠른 응답 속도”와 “대화 흐름을 두 배 더 길게 유지”라고 나옵니다. 그런데 Live API 공식 문서를 보면 숫자가 다르게 나옵니다.

⚠️ 공식 문서에 명시된 세션 제한

오디오 전용 세션: 최대 15분 (압축 미적용 기준)
오디오+영상 동시 세션: 최대 2분 (압축 미적용 기준)
컨텍스트 윈도우: 128K 토큰 한도
연결 유지 시간: 약 10분 (연결 자체가 끊김)

(출처: Google AI for Developers — Live API Session Management, ai.google.dev)

오디오+영상 세션 2분 제한은 꽤 짧습니다. 카메라를 켜고 요리 방법을 물어보려고 하면, 2분 안에 말을 끝내거나 컨텍스트 윈도우 압축 기능을 코드로 직접 설정해야 한다는 뜻입니다. 구글도 이 문제를 알고 있어서 “Context Window Compression”과 “Session Resumption” 기능을 제공합니다. 슬라이딩 윈도우 방식으로 오래된 맥락을 자동으로 압축하면 세션을 사실상 무제한으로 유지할 수 있습니다. 단, 이건 개발자가 API를 통해 직접 설정해야 하는 옵션이고, 일반 사용자가 쓰는 Gemini Live 앱에는 이 조건이 별도로 적용됩니다.

또한 연결 자체가 약 10분마다 서버 측에서 리셋됩니다. 단, GoAway 메시지를 미리 수신하는 구조라 앱 개발 시 대비할 수 있습니다. Session Resumption 토큰은 세션 종료 후 2시간 동안 유효합니다. 이 토큰을 저장해두면 중단된 대화를 이어받을 수 있습니다. (출처: Google AI for Developers, Live API Session Management)

▲ 목차로 돌아가기

SynthID 워터마크, 내 목소리가 아닐 수도 있습니다

Gemini 3.1 Flash Live가 출력하는 모든 오디오에는 SynthID 워터마크가 내장됩니다. 공식 발표에 “감지 불가능한 워터마크”라고 명시돼 있습니다. (출처: 구글 공식 블로그, 2026.03.26) 사람 귀로는 들을 수 없지만, AI 생성 오디오인지 기술적으로 검증 가능한 표식이 오디오 파일 자체에 심어진다는 의미입니다.

이게 왜 중요하냐면, 기업이 이 모델을 고객 응대 자동화에 쓸 때 의미가 달라집니다. 버라이즌, 홈디포, 라이브킷 같은 기업들이 이미 이 모델을 콜센터·고객 서비스 봇에 도입했다고 구글이 밝혔습니다. 그 AI 응대 목소리가 실제로 사람인지 AI인지 구별하는 수단이 바로 SynthID입니다. 소비자 입장에서는 내가 대화하는 상대가 AI임을 입증하는 근거가 오디오 파일 안에 숨겨져 있는 구조입니다.

💡 오디오 워터마크가 “AI 콘텐츠임을 투명하게 알린다”고만 생각하기 쉬운데, 뒤집어 보면 다른 면이 있습니다. AI가 생성한 음성 파일이 어디선가 유통될 때, 해당 파일이 구글 Gemini 3.1 Flash Live로 만들어졌다는 사실이 기술적으로 추적 가능하다는 의미도 됩니다. 개인 개발자가 이 API로 목소리 콘텐츠를 만들 때도 같은 조건이 적용됩니다.

▲ 목차로 돌아가기

GPT-5.4 음성 모드와 어떻게 다른가

현재 실시간 AI 음성 대화 시장에서 직접 비교 대상은 OpenAI의 GPT-5.4 음성 모드입니다. 두 서비스 모두 저지연 멀티모달 음성 대화를 표방하지만, 접근 방식이 다릅니다.

항목	Gemini 3.1 Flash Live	GPT-5.4 음성 모드
기반 모델	Gemini 3 Pro 기반	GPT-5.4 통합 모델
컨텍스트 윈도우	128K 토큰	1M 토큰
오디오 전용 세션	15분 (기본)	별도 명시 없음
AI 워터마크	SynthID 자동 내장	미확인
개인 사용자 접근	Search Live·Gemini Live 앱	ChatGPT 앱 음성 모드
글로벌 배포	200개국+ (2026.03.26)	순차 배포

컨텍스트 윈도우 차이가 가장 큽니다. GPT-5.4가 1M 토큰을 지원하는 반면 Gemini 3.1 Flash Live는 128K입니다. 긴 대화를 이어가려면 앞서 설명한 컨텍스트 압축 기능이 필수입니다. 반면 Search Live를 통한 실사용 접근성은 구글이 앞서 있습니다. 200개국에 이미 배포됐고, 일반 구글 앱에서 별도 구독 없이 AI 모드 활성화만으로 쓸 수 있습니다.

솔직히 말하면, 두 모델 모두 “완성된 음성 AI”보다는 “빠르게 개선되는 중인 음성 AI”에 가깝습니다. Gemini 3.1 Flash Live는 벤치마크에서 1위를 차지했지만 36.06%라는 점수는 여전히 어렵고 까다로운 테스트라는 방증이고, GPT-5.4 음성 모드도 긴 대화 중 발생하는 맥락 유지 문제를 여전히 개선 중입니다.

▲ 목차로 돌아가기

자주 묻는 질문

기존 Gemini Live 앱에 Gemini 3.1 Flash Live 모델이 탑재된 구조입니다. 앱 이름은 그대로이고, 내부 모델이 업그레이드된 것입니다. 체감 차이는 응답 속도가 빨라지고 대화 흐름을 더 길게 이어갈 수 있다는 점인데, 구글 공식 블로그에서 “이전 모델 대비 두 배 더 긴 대화 흐름 유지”라고 표현했습니다.

Search Live를 쓰려면 유료 구독이 필요한가요? +

Search Live 자체는 구글 앱에 포함된 기능으로, AI 모드가 활성화된 계정이라면 별도 유료 구독 없이도 쓸 수 있습니다. 단, Gemini Live 앱의 일부 기능이나 기업용 Gemini Enterprise for Customer Experience는 유료입니다. 개발자가 Gemini Live API를 사용하는 경우 사용량에 따라 API 비용이 발생합니다.

카메라를 켜면 음성+영상 동시 세션이 2분 제한이라는데, 이게 실제로 끊기나요? +

개발자가 API로 직접 구현할 때 컨텍스트 압축을 설정하지 않으면 2분 이후 세션이 강제 종료됩니다. 공식 문서에 “Exceeding these limits will terminate the session”이라고 나옵니다. 반면 일반 사용자가 Search Live나 Gemini Live 앱을 쓸 때는 구글이 내부적으로 세션 관리를 처리하기 때문에 체감 상 끊기는 경우는 다를 수 있습니다. 다만 장시간 대화에서 맥락이 초기화되는 현상이 발생할 가능성이 있습니다.

SynthID 워터마크가 들어가면 음질이 나빠지나요? +

구글은 SynthID를 “감지 불가능한 워터마크”라고 소개합니다. 사람 귀로는 들을 수 없고 음질 저하도 없다는 설계 의도입니다. 음파 자체에 미세한 패턴을 심는 방식이라 일반 청취자가 구별하기는 어렵습니다. 다만 이 워터마크가 기술적으로 완벽히 제거 불가능한지, 실제 검출 정확도가 어느 수준인지는 구글이 공개한 이유는 아직 나오지 않은 부분입니다.

한국어로 실시간 대화할 때 품질은 어떤가요? +

마치며

Gemini 3.1 Flash Live는 분명히 한 단계 올라선 모델입니다. 벤치마크 1위 수치, 200개국 동시 확장, SynthID 워터마크까지 — 구글이 음성 AI에 진지하게 투자하고 있다는 게 느껴집니다. 그런데 막상 API 문서를 열면 2분·15분 세션 제한, 128K 컨텍스트, 10분 연결 리셋이 기다리고 있습니다.

일반 사용자라면 Search Live나 Gemini Live 앱을 통해 체감하는 품질이 분명히 올라갔을 것입니다. 개발자나 기업이라면 세션 관리 설계를 처음부터 넣어야 합니다. “자연스러운 대화”라는 말을 그대로 믿고 제품에 붙였다가 15분 뒤 세션이 끊기는 상황은 발표문만 읽으면 예측하기 어렵습니다. 이 부분이 아직 좀 아쉬웠습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

구글 공식 블로그 — 제미나이 3.1 플래시 라이브 발표 (blog.google, 2026.03.26)
DeepMind 모델 카드 — Gemini 3.1 Flash Live (deepmind.google, 2026.03.26)
Google AI for Developers — Live API Session Management (ai.google.dev)
Google Search 공식 블로그 — Search Live 글로벌 확장 (blog.google, 2026.03.26)
Firebase AI Logic 공식 문서 — Live API 한도 및 사양 (firebase.google.com)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치와 제한 조건은 2026년 3월 26일 기준 공식 문서 및 구글 발표 자료를 참고했습니다. 이후 업데이트로 내용이 달라질 수 있으니 최신 공식 문서를 함께 확인하시길 권합니다.

Gemini 3.1 Flash Live,
3가지 수치로 직접 확인했습니다

Gemini 3.1 Flash Live가 나온 배경