Gemini 3.1 Flash Live, 빠른데 이 조건엔 다릅니다

Published on

in

Gemini 3.1 Flash Live, 빠른데 이 조건엔 다릅니다

2026.03.26 기준
Gemini 3.1 Flash Live Preview
TECH 카테고리

Gemini 3.1 Flash Live, 빠른데
이 조건엔 다릅니다

구글이 3월 26일 공개한 음성 AI 모델입니다. 벤치마크 수치만 보면 역대 최고처럼 보이는데, 막상 프로덕션에서 쓰면 공식 발표에 없는 조건들이 있습니다. 비용이 실제로 얼마나 줄어드는지, 어디서 막히는지, 공식 문서와 실측 데이터를 같이 놓고 봤습니다.

90.8%
ComplexFuncBench Audio
95.9%
Big Bench Audio (thinking)
~85%↓
3단계 스택 대비 비용

Gemini 3.1 Flash Live가 뭔지, 딱 한 줄로

Gemini 3.1 Flash Live는 구글이 2026년 3월 26일 공개한 실시간 음성 AI 모델입니다. 텍스트로 변환하지 않고 오디오를 바로 받아서 오디오로 내보내는 방식이라, 기존에 STT(음성 인식) → LLM → TTS(음성 합성) 순으로 이어붙이던 구조를 하나로 압축했습니다. 구글 공식 블로그에서는 “차세대 음성 우선 AI에 필요한 속도와 자연스러운 리듬을 제공한다”고 밝혔습니다.

이 모델은 Gemini 3 Pro 아키텍처를 기반으로 합니다. DeepMind 공식 모델 카드에 “Gemini 3.1 Flash Live is based on Gemini 3 Pro”라고 명시돼 있습니다. Flash급 속도를 가지면서도 Pro 아키텍처의 추론 능력을 끌어쓰는 방식입니다. 컨텍스트 윈도우는 입력 128K 토큰, 출력 64K 토큰입니다.

현재 사용 가능한 채널은 세 곳입니다. 개발자는 Google AI Studio의 Gemini Live API로 Preview 버전에 접근하고, 기업은 Gemini Enterprise for Customer Experience에서 쓸 수 있으며, 일반 이용자는 Gemini Live와 Search Live를 통해 만납니다. (출처: 구글 공식 블로그, 2026.03.26)

▲ 목차로 돌아가기

벤치마크 수치, 공식 문서에서 직접 확인했습니다

구글이 제시한 벤치마크는 세 가지입니다. 공식 블로그(2026.03.26)에 수치가 직접 나와 있습니다. 하나씩 뜯어봤습니다.

벤치마크 점수 측정 기관
ComplexFuncBench Audio
다단계 함수 호출 능력
90.8% Google 자체 평가
AudioMultiChallenge
장기 대화 추론 (thinking 모드)
36.06% Scale AI
Big Bench Audio
오디오 이해 종합 (thinking 모드)
95.9% Artificial Analysis

여기서 한 가지 봐야 할 부분이 있습니다. AudioMultiChallenge 36.06%는 thinking 모드를 켠 상태의 수치입니다. 같은 벤치마크 기준으로 이전 모델 대비 선두를 차지했다고 밝혔지만, 절댓값 36%는 낮아 보일 수 있습니다. 이 벤치마크는 대화 중단, 망설임 같은 실제 오디오 환경의 복잡한 상황을 반영해 의도적으로 어렵게 설계된 테스트입니다. 즉, “음성 AI는 조용한 환경에서만 잘 듣는다”는 기존 통념을 깨는 방향으로 설계된 벤치마크에서 1위를 했다는 점이 의미 있습니다.

Big Bench Audio 95.9%는 2위 수준입니다. Artificial Analysis가 공식 측정했으며, Step-Audio가 1위입니다. (출처: Artificial Analysis, 2026.03.26) 1위가 아니라는 사실은 구글 공식 발표문에는 없고, X(트위터) 채널에서 확인했습니다.

▲ 목차로 돌아가기

비용 계산, 숫자로 뜯어보면 놀랍습니다

💡 공식 발표문과 실제 개발자들의 비용 계산을 같이 놓고 보니 이런 차이가 보였습니다. “더 좋은 모델이 더 비싸다”는 상식이 이 경우엔 완전히 거꾸로 적용됩니다.

기존 음성 에이전트 개발 방식은 세 개의 API를 연결하는 구조였습니다. 음성 인식(STT) → 언어 모델(LLM) → 음성 합성(TTS) 순으로 이어붙이는 방식입니다. 각 단계마다 API 비용과 지연 시간이 쌓입니다.

📊 기존 3단계 스택 비용 (분당 기준)

STT (Deepgram Nova-2): 약 $0.0043/분
LLM (GPT-4o 또는 Claude Sonnet): 약 $0.04~$0.15/분
TTS (ElevenLabs): 약 $0.015~$0.06/분
합계: 약 $0.06~$0.20/분

Gemini 3.1 Flash Live는 STT, LLM, TTS를 하나로 합칩니다. 오디오 토큰 처리 방식으로, 초당 약 25개 토큰이 처리됩니다. 참조 모델인 2.5 Flash Native Audio의 공개 요금(입력 $3.00/1M 토큰, 출력 $12.00/1M 토큰)을 기준으로 계산하면 1분 통화에 드는 모델 비용은 약 $0.021입니다.

🔢 계산식 (직접 검증 가능)

1분 × 60초 × 25토큰/초 = 1,500 입력 토큰
1,500 출력 토큰 (응답 기준)
입력: 1,500 × $3.00 ÷ 1,000,000 = $0.0045
출력: 1,500 × $12.00 ÷ 1,000,000 = $0.018
모델 비용 합계: 약 $0.0225/분

SIP 트렁킹(Twilio/Plivo 기준 약 $0.005~$0.010/분)을 더해도 총 약 $0.025~$0.035/분입니다. 기존 프리미엄 3단계 스택의 $0.06~$0.20/분 대비 85~90% 절감입니다. (출처: Reddit B2BSaaS 커뮤니티 실측 분석, 2026.03.28) 이 수치는 “새 모델은 더 비싸다”는 통념과 정반대입니다.

단, Gemini 3.1 Flash Live의 공식 요금은 3월 31일 현재 아직 공개되지 않았습니다. 위 계산은 직전 모델인 2.5 Flash Native Audio 요금을 기준으로 한 추정치입니다. 공식 GA 전환 시 요금이 달라질 수 있습니다.

▲ 목차로 돌아가기

3.1 쓰면 대화가 2배 더 길게 유지된다고요?

💡 구글 공식 발표문에는 “대화 흐름을 2배 더 길게 유지”라고 나와 있습니다. 그런데 개발자 포럼에서 실제 배포 경험을 보면, 이 수치가 작동하는 조건이 따로 있습니다.

구글 공식 블로그(2026.03.26)에는 “이전 모델 대비 더 빠른 응답 속도를 제공하며, 대화의 흐름을 두 배 더 길게 유지할 수 있습니다”라고 나옵니다. 장시간 브레인스토밍 중에도 맥락을 유지하며 자연스럽게 대화를 이어간다는 설명입니다.

실제 프로덕션 적용 사례를 보면 조금 다릅니다. joespeaking이라는 실시간 음성 대화 플랫폼 팀은 Gemini Developer Forum(2026.03.28)에 세션당 3~14분, 8~25턴 대화를 테스트한 결과를 올렸습니다. 이 팀은 “thinking 레벨을 minimal로 설정했을 때 속도와 품질 균형이 가장 좋았다”고 밝혔습니다. 즉, 2배 더 긴 대화 유지는 thinking 모드 설정과 VAD(음성 활동 감지) 방식에 따라 결과가 달라집니다.

또한 지연 시간에 대해서도 구글은 구체적인 밀리초(ms) 수치를 공개하지 않았습니다. Ars Technica(2026.03.27)는 “연구자들은 일반적으로 300ms를 최적 음성 인지의 한계로 보는데, 구글은 구체적인 수치를 명시하지 않았다”고 지적했습니다. Reddit 커뮤니티의 실측 빌드에서는 이전 모델 기준 400~600ms 수준이었고, 3.1은 체감상 300ms 미만으로 느껴진다는 경험이 공유됐습니다. 단, “250ms 보장”을 주장하는 글은 공식 근거가 없습니다.

▲ 목차로 돌아가기

프로덕션에서 실제로 막히는 두 가지

공식 벤치마크에는 없지만, 실제 배포 팀들이 공통으로 보고한 두 가지 문제가 있습니다. 이 부분이 Preview 단계라는 현실을 가장 잘 보여줍니다.

⚠️ 문제 1: 배경 소음 후 모델이 침묵합니다

joespeaking 팀의 테스트 로그(2026.03.28)에는 이런 시퀀스가 기록됐습니다. 사용자가 약 8초간 답변을 마친 뒤 activityEnd 신호를 보냈고, 2초짜리 배경 소음이 추가로 감지됐습니다. 모델은 소음을 발화로 오인해 대기 상태로 진입했고, 이후 10초 이상 침묵했습니다. 사용자가 “Hello”를 두 번 더 말했지만 응답이 없었고, “Yes”라고 말한 뒤에야 겨우 반응했습니다. 이 현상은 두 세션 중 한 세션에서 발생했으며, 비결정적(non-deterministic)으로 나타납니다.

⚠️ 문제 2: 장시간 대화 후 함수 호출이 흔들립니다

functionCallingConfig.mode를 ANY로 설정하고 “함수만 호출하고 말은 하지 말라”고 지시했을 때, 대화가 길어지면 모델이 함수를 호출하는 대신 결과를 말로 읽어버리거나 양쪽을 동시에 하는 경우가 발생합니다. 독립 테스트에서는 2초 만에 정확히 toolCall이 나왔지만, 긴 대화 히스토리가 쌓인 상태에서는 불안정해집니다. 닫는 멘트를 정확히 한 번만 말하도록 지시했을 때 두 번 말하거나 “Have a good day”를 임의로 덧붙이는 현상도 보고됐습니다.

이 두 현상은 구글 공식 문서에서 별도 이유를 밝히지 않았습니다. 현재 Preview 상태이므로 GA(정식 출시) 시점에 개선될 가능성은 있지만, 지금 당장 콜센터 급 대규모 배포를 고려한다면 클라이언트 측 폴백(fallback) 로직을 반드시 함께 설계해야 합니다.

Preview 단계라 Rate Limit도 GA 모델보다 훨씬 제한적입니다. 10,000석 규모의 콜센터를 오늘 당장 이 모델로 전환하는 건 현실적으로 불가능합니다. (출처: Reddit B2BSaaS 실측 분석, 2026.03.28)

▲ 목차로 돌아가기

지금 바로 쓸 수 있는 채널과 접근 방법

기술 스펙상 오디오 입력은 16비트 PCM, 16kHz 모노 포맷이 필요하고, 출력은 24kHz입니다. 연결 프로토콜은 Stateful WebSocket(WSS)입니다. (출처: Google Gemini API 공식 문서, 2026.03.26 기준) 이 스펙은 실시간 스트리밍 특성상 REST API가 아니라 WebSocket 세션을 유지해야 한다는 뜻입니다.

🚀 지금 접근할 수 있는 3가지 채널

개발자

Google AI Studio → ai.studio/live에서 Preview 무료 접근. GenAI SDK 또는 WebSocket 방식 모두 지원합니다.
기업

Gemini Enterprise for Customer Experience 요금제를 통해 접근합니다. 버라이즌, 홈디포 등이 이미 도입해 긍정적 피드백을 공유했습니다.
일반

Gemini 앱의 Gemini Live 기능과, 이번 주부터 200개국 이상으로 확대되는 Search Live를 통해 자동으로 적용됩니다.

70개 언어를 지원하며, 생성되는 모든 오디오에는 SynthID 워터마크가 적용됩니다. 감지 불가능하도록 오디오에 직접 내장되는 방식으로, AI 생성 콘텐츠를 식별해 오정보 확산을 막는 안전 장치입니다. (출처: 구글 공식 블로그, 2026.03.26)

LiveKit, Vapi, Bland 같은 WebRTC 기반 래퍼 플랫폼을 통한 통합도 지원합니다. 빠르게 프로토타입을 만들려면 이 쪽이 현실적입니다. 단, 이런 플랫폼들은 자체 마진이 붙어 순수 API 대비 비용이 올라가므로 트레이드오프를 계산해야 합니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. Gemini 3.1 Flash Live는 지금 무료로 쓸 수 있나요?

개발자 기준으로는 Google AI Studio에서 Preview 버전을 무료로 테스트할 수 있습니다. 단, Preview 상태라 Rate Limit이 GA 모델보다 훨씬 제한적입니다. 일반 이용자는 Gemini Live와 Search Live에서 별도 설정 없이 자동 적용됩니다. 공식 API 요금은 아직 발표되지 않았습니다.

Q2. 한국어도 지원하나요?

공식 문서 기준 70개 언어를 지원한다고 나와 있습니다. 한국어 포함 여부는 공식 지원 언어 목록에서 직접 확인이 필요합니다. Search Live의 200개국 확대 서비스는 이번 주부터 시작됐으며, 다국어 처리가 기본 내장돼 있다고 구글은 밝혔습니다.

Q3. 기존 Gemini 2.5 Flash Native Audio와 뭐가 다른가요?

세 가지가 다릅니다. 첫째, 아키텍처 베이스가 Gemini 3 Pro로 올라갔습니다. 둘째, 음조(pitch)와 속도(pace) 같은 음향 뉘앙스 인식 능력이 향상됐습니다. 셋째, 이전 모델에서 가끔 발생하던 1011 “Resource exhausted” 연결 끊김 현상이 개선됐다는 실사용 보고가 있습니다. 지연 시간도 개선됐지만 구체적인 ms 수치는 공개되지 않았습니다.

Q4. SynthID 워터마크가 뭔가요? 음질에 영향을 주나요?

SynthID는 구글이 개발한 AI 생성 콘텐츠 식별 기술입니다. 오디오 파형에 사람 귀로 감지할 수 없는 패턴을 직접 삽입하는 방식입니다. 공식 발표에 따르면 음질에 영향을 주지 않는다고 합니다. 딥페이크 음성이나 가짜 고객센터 AI를 식별하는 데 쓰일 수 있습니다.

Q5. 지금 바로 AI 콜센터에 적용해도 될까요?

소규모 테스트나 파일럿 정도는 지금도 가능합니다. 다만 아직 Preview 단계라 Rate Limit이 제한적이고, 장시간 대화 후 함수 호출 안정성 문제가 보고된 상태입니다. 대규모 프로덕션 배포는 GA 전환 이후를 권장합니다. 지금 시작한다면 클라이언트 측 폴백 로직을 반드시 함께 설계해야 합니다.

▲ 목차로 돌아가기

마치며 — 총평

Gemini 3.1 Flash Live는 음성 AI 분야에서 의미 있는 도약입니다. STT→LLM→TTS 3단계 구조를 하나로 압축해 비용을 85~90% 줄이는 구조적 변화이고, ComplexFuncBench Audio 90.8%는 실제 업무에 가까운 다단계 함수 호출 환경에서 나온 수치입니다.

솔직히 말하면, 아직 Preview 단계라는 게 가장 큰 제약입니다. 배경 소음 후 침묵 버그와 장시간 대화 후 함수 호출 불안정 문제는 구글도 아직 공식 답변을 내놓지 않은 상태입니다. 이 두 가지가 해결되고 GA로 전환되는 시점이 음성 AI 에이전트 시장이 본격적으로 달라지는 분기점이 될 것 같습니다. 지금은 파일럿으로 구조를 먼저 검증해두는 게 맞습니다.

비용 계산이 흥미롭다면 2.5 Flash Native Audio 요금표를 기준으로 직접 계산식을 돌려보세요. 자신의 통화량에 맞춰 계산하면 실제 절감 규모가 바로 나옵니다.

본 포스팅 참고 자료

  1. 구글 공식 블로그 — 제미나이 3.1 플래시 라이브 발표 (2026.03.26)
  2. Google DeepMind 공식 모델 카드 — Gemini 3.1 Flash Live (2026.03.26)
  3. Google AI for Developers — Gemini Live API 공식 문서
  4. Google Developer Forum — 실제 프로덕션 배포 경험 (joespeaking, 2026.03.28)
  5. Ars Technica — 지연 시간 분석 (2026.03.27)

본 포스팅은 2026년 3월 31일 기준으로 작성됐습니다. Gemini 3.1 Flash Live는 현재 Preview 단계이며, 본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있습니다. 모든 수치는 공식 문서 또는 명시된 출처를 기반으로 하며, 일부 비용 추정치는 이전 모델 요금을 기준으로 산출된 추정값입니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기