2026.03.26 기준
Gemini 3.1 Flash Live Preview
구글 공식 발표

Gemini 3.1 Flash Live, 96% 추론이 전부가 아닙니다

구글이 3월 26일 공개한 최신 음성 AI 모델은 Speech Reasoning 벤치마크 2위를 기록했습니다. 그런데 정작 “대화가 자연스럽냐”를 측정하는 Conversational Dynamics 점수는 아직 데이터가 없습니다. 비용 90% 절감이라는 수치도 공식 가격이 아닌 전임 모델 기준 추정치입니다. 지금 당장 서비스에 쓸 수 있는 상태인지, 조건부터 짚어봤습니다.

96%

Speech Reasoning
(Big Bench Audio)

200+

국가/지역
서치 라이브 확대

~85%

비용 절감 추정치
(Preview 가격 미공개)

Preview

정식 출시 아님
레이트 리밋 존재

Gemini 3.1 Flash Live가 뭔데 갑자기 이렇게 화제일까요

구글은 2026년 3월 26일(현지 시간) Gemini 3.1 Flash Live를 공식 공개했습니다. 공식 설명에 따르면 “실시간 대화에 특화된 최고 품질의 오디오 및 음성 모델”입니다. 텍스트 기반 Gemini 시리즈와 달리 오디오를 직접 입력받아 오디오로 응답하는 구조, 즉 STT(음성인식)→LLM→TTS(음성합성)라는 3단계 파이프라인을 하나로 통합한 네이티브 오디오 모델입니다. (출처: Google DeepMind Model Card, Gemini 3.1 Flash Live, 2026.03.26)

같은 날 구글은 이 모델을 탑재한 ‘서치 라이브(Search Live)’를 200개 이상의 국가와 지역에 동시 확대했습니다. 한국도 포함됩니다. 안드로이드·iOS 구글 앱에서 검색창 하단의 ‘Live’ 아이콘 하나로 바로 실시간 음성 대화를 시작할 수 있고, 카메라를 켜면 눈앞의 사물을 보여주며 질문할 수 있습니다. (출처: Google Blog, Search Live Global Expansion, 2026.03.26)

이번 모델이 주목받은 이유는 두 가지입니다. 첫째는 벤치마크 성능이고, 둘째는 비용 구조의 변화입니다. 그런데 막상 숫자를 파고들면 “좋긴 한데, 조건이 있다”는 그림이 나옵니다.

▲ 목차로 돌아가기

추론 96%인데 대화 자연스러움은 왜 없을까요

💡 공식 발표문과 독립 벤치마크를 같이 놓고 보니 이런 차이가 보였습니다. “Speech Reasoning이 높다”는 것과 “대화가 자연스럽다”는 것은 완전히 다른 측정입니다.

Artificial Analysis가 운영하는 Speech-to-Speech 벤치마크 리더보드에서 Gemini 3.1 Flash Live Preview – High는 Speech Reasoning(Big Bench Audio) 점수 96%로 전체 2위를 기록했습니다. 1위는 Step-Audio R1.1이 97%로 앞서 있습니다. 이 벤치마크는 1,000개의 오디오 질문에 얼마나 정확히 답하느냐를 측정합니다. (출처: Artificial Analysis Speech-to-Speech Leaderboard, 2026.03.30 기준)

그런데 Conversational Dynamics 항목, 그러니까 대화 흐름의 자연스러움(말 끊기, 침묵 처리, 끼어들기 대응)을 측정하는 Full Duplex Bench 점수는 같은 리더보드에서 아직 데이터가 없습니다. GPT-Realtime-1.5가 이 항목에서 95.7%로 1위를 기록하고 있고, GPT Realtime, GPT Realtime Mini도 93~95%대를 유지합니다. 추론 능력이 뛰어난 것과 실제 대화가 어색하지 않은 것은 별개 지표입니다. 추론 2위가 실사용 대화 경험 2위를 의미하지는 않습니다.

구글 공식 블로그도 “이용자의 불만이나 혼란 섞인 표현에 따라 응답을 유연하게 조정하는 능력이 개선됐다”고 밝혔지만, 구체적인 수치는 제시하지 않았습니다. 개발자라면 지금 단계에서는 추론 성능만 보고 판단하기보다, 실제 대화 흐름은 직접 테스트해봐야 합니다. (출처: Google Blog, Gemini 3.1 Flash Live, 2026.03.26)

▲ 목차로 돌아가기

서치 라이브, 한국에서 지금 쓸 수 있는 조건

서치 라이브는 구글 앱의 AI 모드(AI Mode)가 제공되는 모든 언어와 지역에서 사용할 수 있습니다. 한국이 포함된 건 맞지만, 조건이 하나 있습니다. 해당 기기에서 구글 앱의 AI 모드가 활성화되어 있어야 합니다. AI 모드는 구글 앱 업데이트 상태와 계정 설정에 따라 다르게 표시될 수 있어, 앱을 최신 버전으로 업데이트한 뒤 검색창 하단 Live 아이콘이 노출되는지 확인하는 게 먼저입니다. (출처: Google Support, AI Mode Availability, 2026.03.26)

작동 방식은 세 가지입니다. 첫째, 음성만 사용하는 방식은 Live 아이콘을 탭한 뒤 바로 말하면 됩니다. 구글 AI가 오디오로 답변해주고 후속 질문으로 맥락을 이어갈 수 있습니다. 둘째, 카메라를 함께 켜면 눈앞의 대상을 보여주며 실시간으로 질문할 수 있습니다. 전자기기 뒷면, 식물 상태, 요리 과정 같은 시각 정보가 필요한 상황에서 유용합니다. 셋째, 이미 구글 렌즈를 사용 중이라면 화면 하단 ‘Live’ 탭 한 번으로 전환됩니다.

다국어 처리는 별도 번역 파이프라인 없이 모델 자체에서 이루어집니다. 한국어를 포함한 70개 이상의 언어를 네이티브로 처리하기 때문에, 번역 레이턴시 없이 바로 한국어로 주고받을 수 있는 구조입니다. (출처: Google AI Developers, Live API Docs, Multilingual Support 항목, 2026.03.26)

▲ 목차로 돌아가기

비용 90% 절감, 계산식 직접 따라가 봤습니다

💡 “90% 절감”이 퍼진 경로를 추적해봤습니다. 수치는 틀리지 않지만, 전제 조건이 붙어 있습니다.

기존 음성 에이전트 구축 방식은 STT(Deepgram 등) → LLM(GPT-4o 또는 Claude) → TTS(ElevenLabs 등)를 순서대로 호출하는 3단계 구조였습니다. 프리미엄 조합 기준 실제 비용은 분당 약 $0.06~$0.20 수준이었고, Vapi나 Bland 같은 래퍼 플랫폼을 쓰면 오케스트레이션 마진이 얹혀 분당 $0.09~$0.15로 수렴합니다. (출처: Reddit r/B2BSaaS, Gemini 3.1 Flash Live cost breakdown, 2026.03.28)

Gemini 3.1 Flash Live는 STT→TTS 단계를 없애고 오디오 토큰을 직접 처리합니다. 비용 추정의 근거는 전임 모델인 Gemini 2.5 Flash Native Audio 공개 요금($3.00/1M 오디오 입력 토큰 + $12.00/1M 오디오 출력 토큰)을 기준으로 계산한 것입니다. 1분 통화 기준 약 1,500 입력 + 1,500 출력 토큰이 소비된다고 가정하면 모델 비용만 약 $0.021/분, 여기에 SIP 트렁킹 비용($0.005~$0.01/분)을 합산해 총 $0.025~$0.035/분 수준이 됩니다. 기존 대비 약 85~90% 절감입니다.

📊 음성 에이전트 비용 비교 (1분 통화 기준)

구분	비용/분	비고
기존 STT+LLM+TTS 스택 (프리미엄 조합)	$0.06~$0.20	Deepgram+GPT-4o+ElevenLabs
래퍼 플랫폼 번들 (Vapi/Bland 등)	$0.09~$0.15	오케스트레이션 마진 포함
Gemini 3.1 Flash Live (추정치)	약 $0.025~$0.035	⚠️ Preview, 공식가격 미공개

단, Gemini 3.1 Flash Live의 공식 가격은 아직 공개되지 않았습니다. 위 추정치는 전임 모델 요금을 그대로 적용한 것으로, 정식 출시 시 달라질 수 있습니다. “90% 절감”을 근거로 지금 당장 서비스 아키텍처를 바꾸는 건 이릅니다.

▲ 목차로 돌아가기

Preview 단계라 아직 못 쓰는 것들

가장 먼저 알아야 할 것은 지금 상태가 Preview(프리뷰)라는 점입니다. 구글 AI 스튜디오의 Gemini Live API를 통해 개발자 접근은 가능하지만, 정식 출시(GA, General Availability)가 아닙니다. 레이트 리밋(Rate Limit)이 프로덕션 모델보다 엄격하게 적용됩니다. 대규모 콜센터 수준의 동시 통화를 당장 올려놓을 수는 없습니다. (출처: Google DeepMind Model Card, Gemini 3.1 Flash Live, 2026.03.26)

기술적으로도 빈칸이 있습니다. Gemini 3.1 Flash Live는 음성 파이프라인은 처리해주지만 SIP 트렁킹(전화 연동), WebSocket 세션 관리, 통화 녹음 컴플라이언스(한국의 개인정보보호법 포함), CRM 연동 같은 주변 인프라는 여전히 별도로 구축해야 합니다. 모델이 싸진다고 해서 프로덕션 배포의 진입 장벽이 사라진 건 아닙니다. 오히려 저렴한 모델로 데모를 빠르게 만들 수 있게 됐을 뿐, 프로덕션 수준의 안정성을 갖추는 복잡도는 그대로입니다.

모델 카드에서 Known Limitations 항목은 Gemini 3 Pro 모델 카드를 참조하도록 되어 있어, 3.1 Flash Live만의 구체적인 제약 목록은 현재 별도로 공개되어 있지 않습니다. 모델 구조적으로는 컨텍스트 윈도우가 128K 입력, 64K 출력으로 설정되어 있습니다. (출처: Google DeepMind Model Card, Gemini 3.1 Flash Live, 2026.03.26)

▲ 목차로 돌아가기

GPT Realtime과 비교하면 어디서 갈리나요

💡 두 모델을 같은 기준으로 정렬했더니, 강점이 겹치지 않는다는 게 보였습니다. 용도에 따라 선택지가 달라집니다.

Speech Reasoning, 즉 오디오로 들어온 질문을 얼마나 정확히 이해하고 답하느냐에서는 Gemini 3.1 Flash Live가 앞섭니다. Big Bench Audio 기준 96% 대 GPT Realtime의 83%, GPT-Realtime-1.5의 81%입니다. 추론 정확도가 중요한 정보 검색형 응답에서는 유리한 포지션입니다.

반면 Conversational Dynamics, 즉 말 끊기·침묵 처리·끼어들기 대응 같은 실제 대화 흐름에서는 GPT-Realtime-1.5가 95.7%, GPT Realtime이 93.9%로 현재 상위권을 유지하고 있습니다. Gemini 3.1 Flash Live는 이 항목의 독립 측정 데이터가 아직 없습니다. 고객 응대 음성 에이전트처럼 “대화가 끊기지 않고 자연스럽게 흘러야” 하는 상황에서는 GPT Realtime 계열이 현재로선 더 검증된 선택지입니다. (출처: Artificial Analysis Speech-to-Speech Leaderboard, 2026.03.30)

가격 면에서는 Gemini 3.1 Flash Live Preview가 오디오 입력 $0.35/시간, 오디오 출력 $1.38/시간으로 GPT Realtime($1.15/$4.61)에 비해 낮습니다. 다만 이건 Preview 가격이고, 정식 출시 때 변동 가능성이 있습니다. 서치 라이브처럼 구글 생태계(Google Lens, Google 앱)와의 깊은 연동이 필요한 경우라면 Gemini 3.1 Flash Live를 선택할 이유가 뚜렷합니다. 독립 음성 에이전트를 프로덕션에서 안정적으로 운영하려면 지금은 GPT Realtime 계열이 더 현실적인 선택입니다.

▲ 목차로 돌아가기

Q&A

Q1. 서치 라이브를 한국에서 쓰려면 뭘 준비해야 하나요?

안드로이드 또는 iOS 기기에 구글 앱(Google App)을 최신 버전으로 업데이트하면 됩니다. 검색창 하단에 Live 아이콘이 생기면 바로 사용 가능합니다. AI 모드가 활성화된 계정과 지역에서만 노출되므로, 아이콘이 보이지 않으면 앱 업데이트 후 재확인하는 게 좋습니다. (출처: Google Blog, Search Live Global Expansion, 2026.03.26)

Q2. 개발자용 Gemini Live API는 무료로 쓸 수 있나요?

Google AI Studio에서 프리뷰 버전으로 제공됩니다. 무료 티어에서도 접근할 수 있지만, 레이트 리밋이 있어 고트래픽 프로덕션 환경에는 맞지 않습니다. 기업용은 Google Cloud의 Gemini Enterprise for Customer Experience를 통해 별도 계약이 필요합니다. (출처: Google AI Developers, Gemini Live API Docs, 2026.03.26)

Q3. AI가 생성한 오디오를 구분할 방법이 있나요?

Gemini 3.1 Flash Live가 생성하는 모든 오디오에는 SynthID 워터마크가 적용됩니다. 사람 귀에는 감지되지 않지만 디지털 신호에 내장되어 있어, AI 생성 콘텐츠를 기술적으로 식별할 수 있습니다. (출처: Google DeepMind Model Card, Gemini 3.1 Flash Live, 2026.03.26)

Q4. 서치 라이브로 카메라를 켜면 영상이 구글에 저장되나요?

이 부분에 대해 구글이 구체적인 데이터 보존 정책을 아직 공식 답변으로 내놓지 않은 상태입니다. 실시간 스트리밍 데이터 처리 방식은 구글의 일반 프라이버시 정책을 따르지만, 서치 라이브 전용 세부 기준은 별도 확인이 필요합니다.

Q5. Gemini 3.1 Flash Live는 기존 ISA 계좌와 같이 쓸 수 있나요?

AI 모델과 금융 계좌는 관계가 없습니다. 이 모델은 구글의 실시간 음성 AI로, 검색·개발 도구로 사용하는 것입니다. 금융 상품과 직접 연결되지 않습니다.

▲ 목차로 돌아가기

마치며

Gemini 3.1 Flash Live는 분명히 주목할 만한 변화입니다. Speech Reasoning 96%는 현재 공개된 음성 AI 모델 중 최상위 수준이고, 한국을 포함한 200개국 서치 라이브 확대는 실제로 대중이 써볼 수 있는 수준의 실사용 배포입니다.

그런데 써봤더니 이게 문제였다는 걸 나중에 발견하지 않으려면, 지금 단계에서 두 가지를 기억해두는 게 좋습니다. 첫째, 추론 능력과 대화 자연스러움은 별개 측정이라는 점. Conversational Dynamics 벤치마크 데이터가 나오기 전까지 “대화가 자연스럽다”는 주장은 공식 수치로 뒷받침이 안 됩니다. 둘째, 비용 절감 수치는 Preview 단계 추정치라는 점. 공식 가격이 공개된 뒤 다시 계산해봐야 합니다.

서치 라이브를 일반 이용자로 써보는 건 지금 당장 해볼 수 있고, 그게 가장 빠른 판단 방법입니다. 개발자라면 AI 스튜디오에서 Live API를 테스트해보되, 프로덕션 전환은 GA 출시 이후로 미루는 게 현실적입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

① Google Blog — Gemini 3.1 Flash Live 공식 발표 (blog.google/intl/ko-kr/…/gemini-31-flash-live-kr)
② Google DeepMind — Gemini 3.1 Flash Live Model Card (deepmind.google/models/model-cards/gemini-3-1-flash-live)
③ Google Blog — Search Live Global Expansion (blog.google/…/search-live-global-expansion)
④ Google AI Developers — Live API Docs (ai.google.dev/gemini-api/docs/live)
⑤ Artificial Analysis — Speech-to-Speech Leaderboard (artificialanalysis.ai/speech-to-speech)

※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini 3.1 Flash Live는 현재 Preview 단계로, 정식 출시(GA) 시 가격·기능·지원 범위가 달라질 수 있습니다. 벤치마크 수치는 Artificial Analysis 2026년 3월 30일 기준이며 이후 업데이트될 수 있습니다.

Gemini 3.1 Flash Live, 96% 추론이 전부가 아닙니다

Gemini 3.1 Flash Live가 뭔데 갑자기 이렇게 화제일까요

추론 96%인데 대화 자연스러움은 왜 없을까요

서치 라이브, 한국에서 지금 쓸 수 있는 조건

비용 90% 절감, 계산식 직접 따라가 봤습니다

Preview 단계라 아직 못 쓰는 것들

GPT Realtime과 비교하면 어디서 갈리나요

Q&A

마치며

본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Gemini 3.1 Flash Live, 96% 추론이 전부가 아닙니다

Gemini 3.1 Flash Live가 뭔데 갑자기 이렇게 화제일까요

추론 96%인데 대화 자연스러움은 왜 없을까요

서치 라이브, 한국에서 지금 쓸 수 있는 조건

비용 90% 절감, 계산식 직접 따라가 봤습니다

Preview 단계라 아직 못 쓰는 것들

GPT Realtime과 비교하면 어디서 갈리나요

Q&A

마치며

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기