2026.03.27 출시
IT / AI
Gemini 3.1 기준

Gemini 3.1 Flash Live, 가장 빠르다고요?
이 수치 보고 판단하세요

구글이 2026년 3월 27일 Gemini 3.1 Flash Live를 공식 출시했습니다. “가장 높은 품질의 오디오 및 음성 모델”이라고 직접 적혀 있는데, 막상 공식 문서와 실사용 데이터를 같이 놓고 보니 마냥 그렇지만은 않았습니다. 벤치마크 1위라는 수치 뒤에 숨겨진 조건들을 직접 따라가봤습니다.

90.8%

ComplexFuncBench Audio 1위

$0.018

오디오 출력 /분 (유료)

200+

국가/지역 Search Live 확대

Gemini 3.1 Flash Live, 이게 뭔데요?

구글이 2026년 3월 27일 공개한 Gemini 3.1 Flash Live는 실시간 음성·영상 대화를 위한 네이티브 오디오 모델입니다. 이름에 ‘Flash’가 붙어 있어서 성능이 낮은 경량 모델일 것 같지만, 공식 모델 카드에는 “Gemini 3 Pro 기반”이라고 명시되어 있습니다. 즉 베이스 아키텍처 자체는 구글의 최상위 모델과 같습니다.

이 모델은 텍스트, 오디오, 이미지, 영상을 동시에 받아 처리할 수 있고, 컨텍스트 윈도우는 입력 128K 토큰, 출력 64K 토큰입니다. 쓸 수 있는 곳은 세 군데입니다. 개발자는 Google AI Studio의 Gemini Live API(프리뷰), 기업은 Gemini Enterprise for Customer Experience, 일반 이용자는 Gemini Live 앱과 Search Live에서 접근할 수 있습니다.

기존 모델과 뭐가 달라진 건가요?

이전 세대인 Gemini 2.5 Flash Native Audio 대비 개선된 부분은 크게 세 가지입니다. 복잡한 다단계 함수 호출 능력, 음조·속도 등 음향적 맥락 인식, 그리고 대화 흐름 지속 길이입니다. 구글 공식 블로그는 “대화의 흐름을 두 배 더 길게 유지할 수 있다”고 직접 표현했습니다. (출처: Google 공식 블로그, 2026.03.27)

▲ 목차로 돌아가기

벤치마크 1위의 조건 — 숫자만 보면 절반만 본 겁니다

구글 공식 발표에서 가장 먼저 등장하는 수치가 ComplexFuncBench Audio 90.8%입니다. 다단계 함수 호출 능력을 평가하는 벤치마크에서 1위라는 건데, 이 수치는 “thinking 모드 비활성화” 기준이 아닙니다. AudioMultiChallenge(Scale AI 운영) 기준으로는 ‘thinking 모드 활성화 시’ 36.06%로 1위입니다. (출처: Google DeepMind 모델 카드, 2026.03.26)

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니, thinking 모드 비용이 출력 토큰에 포함된다는 점이 보였습니다. ‘thinking 모드 켬’이 곧 ‘비용 증가’와 직결됩니다.

Big Bench Audio(Artificial Analysis 운영) 결과도 1위이긴 한데, 이 벤치마크는 단일 턴 오디오 1,000개 기준입니다. 실제 통화나 고객 상담처럼 여러 턴이 이어지는 환경에서의 성능과는 측정 방식이 다릅니다. Scale AI가 3월 18일 발표한 Voice Showdown 실사용자 선호도 리더보드를 보면, S2S(Speech-to-Speech) 부문에서 Gemini 2.5 Flash Audio는 스타일 조정 후 Elo 1,075점으로 GPT-4o Audio(1,102점)에 뒤집힙니다. Gemini 3.1 Flash Live는 이 리더보드에 아직 등재되지 않았습니다. (출처: Scale AI Voice Showdown, 2026.03.18)

벤치마크 점수와 실사용 선호도 비교

모델	ComplexFuncBench	S2S Elo (스타일조정)	비고
Gemini 3.1 Flash Live	90.8% (1위)	미등재	2026.03.27 신규
Gemini 2.5 Flash Audio	—	1,075점	이전 세대
GPT-4o Audio	—	1,102점	스타일 조정 후 역전

(출처: Google DeepMind 모델 카드 2026.03.26, Scale AI Voice Showdown 2026.03.18 / 표 수치는 공식 발표 기준)

▲ 목차로 돌아가기

Search Live 200개국 확대, 한국어는요?

이번 출시와 동시에 구글은 Search Live를 AI Mode가 제공되는 200개 이상 국가·지역 전체로 확대했습니다. 구글 앱(Android·iOS)에서 검색창 아래 Live 아이콘을 탭하면 바로 쓸 수 있고, Google Lens에서도 Live 옵션이 연결됩니다. (출처: Google Search Live 공식 블로그, 2026.03.27)

공식 발표에서 Gemini 3.1 Flash Live가 “기본적으로 다국어 처리 능력을 갖추고 있어 전 세계 이용자가 선호 언어로 대화할 수 있다”고 명시했습니다. 109개 언어를 지원한다는 수치도 나옵니다. 한국어가 포함되는지 여부는 구글이 공식 답변을 내놓지 않은 부분입니다만, AI Mode 지원 언어 목록에 한국어가 포함된 국가들이 대상이라는 점에서 기술적으로는 가능한 범위 안에 있습니다.

그냥 Gemini Live 앱이랑 Search Live는 다릅니다

헷갈리기 쉬운 게, Gemini Live는 제미나이 앱 안에서 작동하는 실시간 대화 기능이고, Search Live는 구글 검색 앱 안에서 카메라·음성으로 검색하는 기능입니다. 두 곳 모두에 Gemini 3.1 Flash Live 모델이 적용됐지만 진입 경로와 사용 목적이 다릅니다. 바이브 코딩 데모에서 보여준 것처럼, Gemini Live에서는 음성으로 코드를 짜달라고 하고 실시간으로 수정하는 방식도 가능합니다.

▲ 목차로 돌아가기

API 비용, 생각보다 그냥 싸지 않습니다

AI Studio에서 무료로 쓸 수 있다는 말을 듣고 당연히 API도 저렴하겠지 싶으시겠지만, 실제 유료 API 가격을 직접 확인해봤습니다. 공식 가격 문서(ai.google.dev/gemini-api/docs/pricing, 2026.03.29 기준)에 올라온 수치는 다음과 같습니다.

구분	Free Tier	Paid Tier
입력 — 텍스트	무료	$0.75 / 1M 토큰
입력 — 오디오	무료	$3.00 / 1M 토큰 ($0.005/분)
입력 — 이미지/영상	무료	$1.00 / 1M 토큰 ($0.002/분)
출력 — 텍스트	무료	$4.50 / 1M 토큰
출력 — 오디오	무료	$12.00 / 1M 토큰 ($0.018/분)

(출처: Google AI Developer Docs — Pricing, 2026.03.29 기준 / 표 수치는 약 단위 없이 공식 문서 그대로)

💡 오디오 출력이 분당 $0.018이면, 하루 1시간짜리 음성 에이전트를 운영하면 하루 $1.08, 한 달이면 약 $32.4입니다. Free Tier에서는 이 비용이 전혀 안 들지만, 프로덕션으로 넘어가는 순간 오디오 출력 비용이 예상보다 빠르게 쌓입니다.

Free Tier는 AI Studio UI에서만 무료이고, API를 통해 프로덕션에 붙이는 순간 위 요금이 적용됩니다. 또한 Grounding with Google Search는 월 5,000건까지 무료이지만 초과분은 1,000건당 $14입니다.

▲ 목차로 돌아가기

실사용 레이턴시 — 공식 약속과 현실의 거리

“낮은 지연 시간(low latency)”이라는 표현이 공식 문서 곳곳에 나옵니다. 그런데 Google AI Developer Forum에 올라온 실사용자 스레드에는 다른 이야기가 적혀 있습니다. 호주에서 Gemini Live API를 사용 중인 개발자는 “지난 1~2주 사이 응답 지연이 8~30초까지 늘어났다”고 적었고, Vertex AI Studio에서 직접 테스트해도 같은 현상이 확인된다고 썼습니다. “서비스가 프로덕션 수준이 아닌 건 분명한데, 무슨 일인지 공식 답변이 없다”는 말도 함께였습니다. (출처: Google AI Developers Forum, 2026.03.27)

주의: 현재 Gemini 3.1 Flash Live는 ‘프리뷰’ 상태입니다. 공식 가격 문서도 “Preview 모델은 안정화 전에 변경될 수 있으며 더 엄격한 rate limit이 적용됩니다”라고 명시하고 있습니다. 프로덕션 배포에 바로 쓰기엔 지연 안정성을 별도로 확인해야 합니다.

레이턴시 문제가 지역 영향을 크게 받는 이유

Google의 Live API 서버가 현재 특정 지역에 집중되어 있어, 서버와의 물리적 거리가 클수록 RTT(왕복 지연)가 누적됩니다. 이 문제는 Gemini 3.1 Flash Live만의 이슈가 아니라 이전 세대 Live API에서도 지속적으로 제기됐습니다. 이유는 아직 공개되지 않았습니다.

▲ 목차로 돌아가기

GPT-4o Realtime과 어떻게 다른가요?

Scale AI가 공개한 Voice Showdown 데이터에는 Gemini 계열과 GPT 계열을 실사용 기준으로 직접 비교한 수치가 담겨 있습니다. Dictate(음성 입력→텍스트 출력) 리더보드에서는 Gemini 3 Pro와 Gemini 3 Flash가 Elo 1,043~1,044로 통계적으로 동점 1위를 차지했고, GPT-4o Audio는 3위입니다. 반면 S2S(음성→음성 출력) 리더보드에서는 스타일 조정 후 GPT-4o Audio가 Elo 1,102로 Gemini 2.5 Flash Audio(1,075)를 앞섭니다. (출처: Scale AI Voice Showdown, 2026.03.18)

💡 같은 구글 모델이라도 ‘텍스트로 답하는 상황’과 ‘음성으로 답하는 상황’에서 순위가 달라집니다. 쓰임새에 따라 어느 모델이 더 맞는지가 다릅니다.

다국어 처리, 오히려 GPT Realtime 1.5가 문제

Voice Showdown에서 드러난 가장 흥미로운 발견은 GPT Realtime 1.5의 언어 불일치 비율입니다. 힌디어, 스페인어, 터키어 등 공식 지원 언어임에도 약 20%의 경우 영어로 응답했습니다. Gemini 2.5 Flash Audio는 이 비율이 약 7%였습니다. 이건 단순 선호도가 아니라 실제 사용 시 발생하는 오류 비율입니다. Gemini 3.1 Flash Live는 “기본적으로 다국어 처리”를 지원한다고 공식 발표됐지만, 동일 기준의 수치는 아직 공개되지 않았습니다.

▲ 목차로 돌아가기

SynthID 워터마크, 모든 오디오에 적용됩니다

Gemini 3.1 Flash Live가 생성하는 모든 오디오에는 구글의 SynthID 워터마크가 자동으로 삽입됩니다. 공식 블로그에 “감지 불가능한 해당 워터마크는 오디오 출력물에 직접 내장되어 AI 생성 콘텐츠를 신뢰성 있게 식별한다”고 적혀 있습니다. (출처: Google 공식 블로그, 2026.03.27)

SynthID는 사람의 귀로는 들을 수 없는 방식으로 삽입됩니다. 그런데 이게 개발자 입장에서는 꼭 편하기만 한 건 아닙니다. 생성된 오디오를 편집하거나 다른 포맷으로 변환할 때 워터마크가 어떻게 유지되는지, 제거가 가능한지에 대한 공식 답변이 나오지 않았습니다. 단순히 AI 생성 표시 수단으로만 볼지, 법적·윤리적 추적 수단으로 볼지에 따라 서비스 설계에서 중요하게 다뤄야 할 부분입니다.

버라이즌·홈디포가 이미 쓰고 있습니다

구글 공식 블로그에는 버라이즌(Verizon), 홈디포(The Home Depot), LiveKit, Wavera, Stream 등이 Gemini 3.1 Flash Live를 워크플로우에 도입하고 긍정적 피드백을 보냈다고 나옵니다. 대기업 고객이 빠르게 붙었다는 건, 엔터프라이즈 등급의 안정성은 어느 정도 확보됐다는 신호로 읽힙니다. 다만 이들은 Gemini Enterprise for Customer Experience 채널을 쓰는 것이라, 일반 API와 동일 환경이라고 보기는 어렵습니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Gemini 3.1 Flash Live는 일반 사용자도 무료로 쓸 수 있나요? +

Gemini Live 앱과 Search Live에서는 무료로 접근할 수 있습니다. API를 통해 프로덕션 서비스를 만들 경우에는 유료 요금이 적용됩니다. AI Studio UI 내에서의 체험은 Free Tier 범위 안에서 무료입니다.

모델 이름에 ‘Flash’가 붙으면 성능이 낮은 건가요? +

아닙니다. 공식 모델 카드에 “Gemini 3 Pro 기반”이라고 명시되어 있습니다. ‘Flash’는 실시간 오디오 처리에 최적화된 구조를 의미하며, 기반 아키텍처 자체는 최상위 모델과 동일합니다. (출처: Google DeepMind 모델 카드, 2026.03.26)

SynthID 워터마크를 제거할 수 있나요? +

공식 문서에서 이에 대한 방법이나 예외 조건을 별도로 밝히지 않았습니다. 모든 오디오 출력에 자동 삽입되는 것으로 안내되어 있습니다.

한국어 음성 대화가 지원되나요? +

공식 발표에 109개 언어 지원이라고 나와 있고, 다국어가 “기본 탑재”된 모델이라고 명시됐습니다. 다만 한국어를 명시적으로 열거한 공식 자료는 아직 확인되지 않아 공식 지원 언어 목록을 직접 확인하는 것이 좋습니다.

지금 바로 개발에 써도 되나요? +

현재 ‘프리뷰’ 단계입니다. 공식 가격 문서에도 “Preview 모델은 안정화 전에 변경될 수 있으며 rate limit이 더 엄격하다”고 나옵니다. 실제 API 레이턴시 이슈도 Developer Forum에서 보고되고 있어, 지연 민감도가 높은 서비스에는 추가 검증이 필요합니다.

▲ 목차로 돌아가기

마치며

Gemini 3.1 Flash Live는 여러 모로 인상적인 모델입니다. ComplexFuncBench Audio 90.8% 1위, Gemini 3 Pro 기반 아키텍처, SynthID 워터마크 내장, Search Live 200개국 확대까지. 숫자만 보면 확실히 “가장 높은 품질의 오디오 모델”이라는 표현이 맞습니다.

그런데 세 가지는 그냥 넘어가기 어려웠습니다. 첫째, 실사용 선호도 리더보드(S2S)에서 스타일 조정 후 GPT-4o Audio에 뒤집히는 부분. 둘째, 오디오 출력 비용이 분당 $0.018로 생각보다 빠르게 쌓인다는 것. 셋째, API 레이턴시가 지역에 따라 8~30초까지 벌어질 수 있다는 실사용 보고가 있다는 것. 이 세 가지를 감안하고 나면, “가장 빠르고 좋다”보다는 “조건에 따라 가장 좋을 수 있다”가 더 정확한 표현 같습니다. 프리뷰 딱지가 떼어진 뒤의 안정성이 기대됩니다.

솔직히 말하면, 지금 당장 프로덕션에 붙이기보다는 AI Studio에서 충분히 체험해보고, 레이턴시와 비용을 직접 측정한 다음에 판단하는 게 맞는 순서라고 봅니다.

본 포스팅 참고 자료

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 가격 정보와 벤치마크 수치는 2026년 3월 29일 공식 문서 기준이며, 이후 업데이트에 따라 달라질 수 있습니다.

Gemini 3.1 Flash Live, 가장 빠르다고요?
이 수치 보고 판단하세요