Gemini 3.1 Flash Live, 수치 3가지 직접 확인했습니다

2026.03.26 기준
IT / AI

2026년 3월 26일, 구글이 조용히 공개한 Gemini 3.1 Flash Live는 단순 업그레이드가 아닙니다. 실시간 음성 AI의 벤치마크를 새로 썼고, Search Live를 200개국에 동시 개방했으며, API 요금 구조까지 바뀌었습니다. 공식 문서와 모델 카드를 직접 뒤져서 수치만 뽑았습니다.

36.06%

AudioMultiChallenge 1위

200+

Search Live 국가 동시 개방

2×

대화 유지 길이 향상

Gemini 3.1 Flash Live가 뭔가요? — 3줄 요약부터

Gemini 3.1 Flash Live는 구글이 2026년 3월 26일 공개한 실시간 음성·영상 대화 전용 모델입니다. 기존 Gemini 2.5 Flash Native Audio를 대체하며, “가장 높은 품질의 오디오·음성 모델”이라는 게 구글의 공식 표현입니다.(출처: Google 공식 블로그, 2026.03.26)

모델 아키텍처는 Gemini 3 Pro를 기반으로 설계되었습니다. 단순히 Flash 계열을 손본 게 아니라, 플래그십 모델의 추론 능력을 실시간 음성 최적화에 그대로 가져온 구조입니다.(출처: Google DeepMind 모델 카드, 2026.03.26) 이게 왜 중요한지는 벤치마크 수치에서 바로 보입니다.

지금 바로 쓸 수 있는 곳은 세 군데입니다. 개발자는 Google AI 스튜디오(ai.studio/live)의 Gemini Live API, 기업은 Gemini Enterprise for Customer Experience, 일반 사용자는 Gemini Live 앱과 Search Live입니다. 무료 티어도 제공됩니다.

입력 형식: 16비트 PCM 오디오(16kHz), 이미지(JPEG, 초당 1프레임 이하), 텍스트 / 출력 형식: 24kHz PCM 오디오 / 컨텍스트: 128K 토큰 입력, 64K 토큰 출력 (출처: Gemini API 공식 문서, ai.google.dev)

▲ 목차로 돌아가기

“1위”라는 표현 뒤에 감춰진 숫자

구글이 발표한 벤치마크는 세 가지입니다. 먼저 ComplexFuncBench Audio에서 90.8%를 기록해 실시간 음성 모델 중 1위를 차지했습니다. 이 벤치마크는 여행 예약처럼 여러 단계의 함수 호출이 연속으로 필요한 작업을 음성으로 처리하는 능력을 측정합니다. 90%를 넘긴 음성 모델은 지금까지 없었습니다.(출처: Google 공식 블로그, 2026.03.26)

💡 공식 발표 수치와 벤치마크 방식을 함께 놓고 보니 이 부분이 눈에 걸렸습니다.

AudioMultiChallenge에서 Gemini 3.1 Flash Live는 “사고 모드(Thinking)” 활성화 시 36.06%로 1위를 기록했습니다. 그런데 비실시간 오디오 모델은 같은 테스트에서 50% 이상을 넘깁니다.(출처: Scale AI AudioMultiChallenge 리더보드, Ars Technica 2026.03.26) 실시간 대화라는 제약 자체가 성능의 상한선을 낮춥니다. “1위”가 맞지만, 절대 수치로 보면 비실시간 모델보다 14%p 이상 낮은 셈입니다.

Big Bench Audio는 오디오 캡셔닝·억양 식별·소리 인식 등 5가지 능력을 평가하는 단일 턴 벤치마크입니다. 여기서도 Gemini 3.1 Flash Live가 실시간 모델 중 선두를 유지했습니다.(출처: Google DeepMind 모델 카드, 2026.03.26) 이 두 벤치마크는 Artificial Analysis와 Scale AI가 각각 외부 독립 평가로 진행했다는 점도 체크해둘 부분입니다.

벤치마크	점수	측정 내용
ComplexFuncBench Audio	90.8%	다단계 함수 호출 (실시간 음성 기준)
AudioMultiChallenge (Scale AI)	36.06%	장기 대화·망설임·중단 처리 능력
Big Bench Audio	실시간 모델 1위	오디오 이해 5가지 복합 능력

출처: Google DeepMind 모델 카드(deepmind.google), Scale AI AudioMultiChallenge, Ars Technica 2026.03.26

▲ 목차로 돌아가기

대화를 두 배 더 오래 이어가는 이유

구글 공식 블로그에 딱 이렇게 나옵니다. “이전 모델 대비 대화의 흐름을 두 배 더 길게 유지할 수 있습니다.” (출처: Google 공식 블로그, 2026.03.26) 브레인스토밍 도중 맥락이 끊기던 문제가 개선됐다는 이야기입니다.

그 핵심은 톤 인식 능력 향상입니다. 이전 모델인 2.5 Flash Native Audio와 비교해 음조(pitch)와 속도(pace)를 훨씬 더 정확하게 인식합니다. 사용자가 불만을 표현할 때, 당황한 말투일 때 응답 방식을 자동으로 조절하는 “감정 반응형 대화(Affective Dialog)”가 이번에 크게 개선된 핵심 기능입니다.(출처: Google 공식 블로그, Gemini Enterprise for Customer Experience 섹션)

버라이즌, 홈디포, LiveKit 등이 실제 도입 후 “더 자연스러운 대화 경험”을 공식 피드백으로 남겼습니다. 물론 이 피드백은 구글 공식 블로그에 게재된 내용이라 객관적 검증은 별도로 필요합니다.(출처: Google 공식 블로그, 2026.03.26)

Live API가 지원하는 주요 기능 목록(출처: ai.google.dev/gemini-api/docs/live)

Barge-in: 대화 중 언제든 끼어들기 가능
다국어 지원: 70개 언어 지원
함수 호출(Function Calling): Google Search 연동 포함
오디오 텍스트 변환: 입력·출력 양방향 트랜스크립트 제공
Proactive Audio: 모델이 응답할 시점 제어 가능
Affective Dialog: 사용자 감정·톤에 따른 응답 스타일 조정

▲ 목차로 돌아가기

API 요금, 공식 문서에서 직접 읽었습니다

Gemini API 공식 요금 페이지(ai.google.dev/gemini-api/docs/pricing, 2026.03.29 기준)에 Gemini 3.1 Flash Live의 요금이 명시돼 있습니다. 직접 확인한 수치를 그대로 옮깁니다.

구분	무료 티어	유료 티어 (100만 토큰당)
텍스트 입력	무료	$0.75
오디오 입력	무료	$3.00 (≒$0.005/분)
이미지·영상 입력	무료	$1.00 (≒$0.002/분)
텍스트 출력	무료	$4.50
오디오 출력	무료	$12.00 (≒$0.018/분)

출처: Gemini API Pricing 공식 문서(ai.google.dev/gemini-api/docs/pricing), 2026.03.29 확인

💡 오디오 출력 요금($0.018/분)을 OpenAI Realtime API 오디오 출력 요금($0.24/분)과 직접 비교해봤습니다.

같은 1분짜리 AI 음성 대화를 1만 분 운영하면 비용이 이렇게 됩니다:

OpenAI Realtime API: 10,000분 × $0.30/분 = $3,000
Gemini 3.1 Flash Live: 10,000분 × $0.018/분 + 입력 $0.005/분 × 10,000분 = 약 $230

같은 작업에 약 13배 차이가 납니다. (출처: Gemini API 공식 문서, OpenAI 공식 요금 페이지, Speko 벤치마크 2026.03)

다만 한 가지 짚어둘 부분이 있습니다. Speko의 분석에 따르면 구글의 저가 전략은 현재 채택률을 높이기 위한 플랫폼 확산 전략일 가능성이 높습니다. 서비스가 성숙기에 접어들면 요금이 조정될 수 있다는 점은 공식 문서에서 별도 언급이 없습니다.(출처: Speko Voice AI Benchmark 2026.03)

▲ 목차로 돌아가기

Search Live가 200개국에 열렸다는 것의 의미

3.1 Flash Live와 동시에 Search Live 글로벌 확장이 발표됐습니다. AI Mode가 지원되는 200개국 이상에서 즉시 사용 가능해졌고, 다국어 자연어 대화가 기본으로 제공됩니다.(출처: Google Search 공식 블로그, 2026.03.26)

사용법은 간단합니다. 구글 앱(안드로이드·iOS) 검색창 아래 Live 아이콘을 탭하면 바로 시작됩니다. 카메라를 켜면 눈에 보이는 것을 실시간으로 같이 분석하는 멀티모달 대화도 가능합니다. Google Lens에서 Live를 탭해도 진입할 수 있습니다.

이게 체감상 달라지는 지점은 “검색창에 타이핑” 대신 “말을 걸면서 카메라를 보여주는” 방식이 200개국 어디서든 모국어로 가능해졌다는 겁니다. 이전까지 Search Live는 영어 중심 소수 국가에서만 지원됐습니다.(출처: Google Search 공식 블로그, 2026.03.26)

▲ 목차로 돌아가기

SynthID 워터마크가 막지 못하는 것

이번에 구글이 강조한 또 다른 기능이 SynthID 워터마크입니다. 3.1 Flash Live가 생성하는 모든 오디오에 청각적으로 인식 불가능한 디지털 워터마크가 자동 삽입됩니다. AI 생성 음성임을 나중에 기술적으로 검증할 수 있는 장치입니다.(출처: Google 공식 블로그, 2026.03.26)

💡 공식 발표문과 Ars Technica 분석을 함께 읽으면 다른 그림이 보입니다.

SynthID는 “사후 기술 검증”용입니다. 통화 중 실시간으로 AI 여부를 알려주지 않습니다.(출처: Ars Technica 2026.03.26) 구글이 버라이즌·홈디포 같은 기업에 3.1 Flash Live를 공급하면서, 고객 서비스 전화에서 상대방이 AI인지 실시간으로 알 방법은 없습니다. 워터마크는 녹음 파일을 확보한 이후에만 의미가 있습니다.

Ars Technica는 이 지점을 직접 짚었습니다. “다음번에 AI 전화 상담원과 통화하면 그게 AI인지 모를 수도 있다. SynthID는 이 문제를 해결하지 않는다.”(출처: Ars Technica 2026.03.26) 모델의 인간 흉내 능력이 올라갈수록 사용자 측에선 실시간으로 확인할 수 없다는 구조적 한계입니다. 이 부분에 대해 구글이 공식 답변을 내놓지 않은 상태입니다.

개발자가 Live API를 사용해 구축하는 앱에서도 동일한 문제가 생깁니다. 프로토콜은 WebSocket 기반 상태 유지(Stateful) 연결입니다. 서버-서버 방식과 클라이언트-서버 방식 모두 지원하지만, 어느 쪽이든 최종 사용자에게 AI 여부를 명확히 표시하는 건 개발자의 판단에 달려 있습니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. Gemini 3.1 Flash Live를 무료로 쓸 수 있나요?

네, 무료 티어에서 Gemini Live API 프리뷰 버전을 이용할 수 있습니다. 단, 무료 티어는 속도 제한(Rate Limit)이 있고 콘텐츠가 구글 제품 개선에 활용됩니다. 유료 전환 시 이 조항이 해제됩니다.(출처: Gemini API 공식 문서 2026.03.29 기준)

Q2. Search Live와 Gemini Live는 어떻게 다른가요?

Search Live는 구글 검색 앱 안에서 웹 검색 결과와 연동된 실시간 대화를 제공합니다. Gemini Live는 Gemini 앱 전용 실시간 대화 기능으로, Google Search 연동은 선택적입니다. 둘 다 Gemini 3.1 Flash Live 모델을 공통으로 사용합니다.(출처: Google 공식 블로그 2026.03.26)

Q3. 한국어로 실시간 대화가 되나요?

Live API는 70개 언어를 지원하고, Gemini 3.1 Flash Live는 다국어 처리를 기본 탑재했습니다.(출처: Gemini API 공식 문서) Search Live의 글로벌 확장도 AI Mode가 지원되는 200개국에서 현지 언어로 제공됩니다. 다만 한국어에서의 성능이 영어 대비 동일한 수준인지는 구글이 별도 수치를 공개하지 않았습니다.

Q4. OpenAI Realtime API 대신 쓸 만한가요?

비용이 주요 제약이라면 Gemini 3.1 Flash Live가 유리합니다. 같은 작업 기준으로 약 13배 이상 저렴합니다. 반면 WebRTC 지원, 생태계 성숙도, 검증된 프로덕션 사례 측면에선 OpenAI Realtime이 앞섭니다. 두 서비스 모두 프리뷰·베타 성격이 남아 있어 요금 정책이 바뀔 수 있습니다.(출처: Speko Voice AI Benchmark 2026.03, Gemini API 공식 문서)

Q5. Gemini 3.1 Flash Live와 2.5 Flash Live의 차이가 큰가요?

기반 모델 자체가 다릅니다. 3.1 Flash Live는 Gemini 3 Pro를 기반으로 설계됐고, 2.5 Flash Native Audio는 이전 세대 기반입니다. 벤치마크에서 ComplexFuncBench Audio 기준으로 선행 모델 대비 90.8%로 선두를 차지했으며, 대화 유지 길이가 두 배 늘었습니다. 단, 직접적인 세대 간 수치 비교는 구글이 별도 공개하지 않았습니다.(출처: Google 공식 블로그, DeepMind 모델 카드 2026.03.26)

▲ 목차로 돌아가기

마치며

솔직히 말하면, Gemini 3.1 Flash Live는 벤치마크 수치만 보면 놀랍습니다. 그런데 직접 공식 문서를 파고들면 “1위”와 “36%”가 동시에 나옵니다. 실시간 음성 모델 중 최고이지만, 비실시간 모델들이 이미 50%를 넘기고 있다는 현실도 함께 있습니다.

API 요금이 OpenAI 대비 13배 이상 저렴한 건 사실이고, 이 가격에 Gemini 3 Pro 기반 추론 능력을 실시간 음성으로 쓸 수 있다는 건 개발자 입장에서 분명히 매력적입니다. 다만 프리뷰 딱지가 아직 붙어 있고, 요금 구조는 언제든 바뀔 수 있습니다.

Search Live가 200개국에 열린 건 일반 사용자에게 가장 체감되는 변화입니다. 한국에서 구글 앱을 열고 검색창 아래 Live를 탭해보는 것 — 그게 지금 당장 해볼 수 있는 가장 간단한 확인 방법입니다.

📎 본 포스팅 참고 자료

Google 공식 블로그 — Gemini 3.1 Flash Live 발표문 (2026.03.26)
https://blog.google/intl/ko-kr/company-news/technology/gemini-31-flash-live-kr/
Google DeepMind — Gemini 3.1 Flash Live 모델 카드 (2026.03.26)
https://deepmind.google/models/model-cards/gemini-3-1-flash-live/
Gemini API 공식 요금 문서 (2026.03.29 확인)
https://ai.google.dev/gemini-api/docs/pricing
Google Search 공식 블로그 — Search Live 글로벌 확장 (2026.03.26)
https://blog.google/products-and-platforms/products/search/search-live-global-expansion
Speko — Voice AI 벤치마크 (OpenAI vs Gemini Live, 2026.03 기준)
https://speko.ai/benchmark/openai-vs-gemini-live
Ars Technica — Gemini 3.1 Flash Live 분석 (2026.03.26)
https://arstechnica.com/ai/2026/03/the-debut-of-gemini-3-1-flash-live…

⚠️ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 수치 및 요금 정보는 2026.03.29 기준 공식 문서 확인 내용이며, 이후 갱신될 수 있습니다. 투자·비즈니스 의사결정 전 반드시 최신 공식 문서를 직접 확인하시기 바랍니다.

Gemini 3.1 Flash Live가 뭔가요? — 3줄 요약부터

“1위”라는 표현 뒤에 감춰진 숫자

대화를 두 배 더 오래 이어가는 이유

API 요금, 공식 문서에서 직접 읽었습니다

Search Live가 200개국에 열렸다는 것의 의미

SynthID 워터마크가 막지 못하는 것

자주 나오는 질문 5가지

마치며

📎 본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Gemini 3.1 Flash Live, 수치 3가지 직접 확인했습니다

Gemini 3.1 Flash Live가 뭔가요? — 3줄 요약부터

“1위”라는 표현 뒤에 감춰진 숫자

대화를 두 배 더 오래 이어가는 이유

API 요금, 공식 문서에서 직접 읽었습니다

Search Live가 200개국에 열렸다는 것의 의미

SynthID 워터마크가 막지 못하는 것

자주 나오는 질문 5가지

마치며

📎 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기