Gemini 3.1 Flash Live, 3가지 수치로 직접 따져봤습니다

2026.03.26 출시 기준 / gemini-3.1-flash-live-preview

구글이 “역대 최고 품질 음성 모델”이라고 부르는 Gemini 3.1 Flash Live가 2026년 3월 26일 출시됐습니다. 비용이 기존 스택 대비 최대 90% 절감된다는 주장부터, 실제 삭제된 기능 3가지, 그리고 카메라 스트리밍 시 비용이 조용히 늘어나는 구조까지 공식 문서 수치로 직접 확인했습니다.

오디오 입력 $0.005/분
오디오 출력 $0.018/분
ComplexFuncBench 1위
200개국 Search Live 확장

Gemini 3.1 Flash Live가 뭔지 30초 요약

주요 입력은 텍스트, 이미지, 오디오, 영상이고 출력은 오디오와 텍스트입니다. 입력 토큰 한도는 131,072이며 출력은 65,536 토큰으로, 직전 모델 Gemini 2.5 Flash Live(출력 8,192 토큰)보다 출력 한도가 8배 늘었습니다. (출처: Google AI for Developers 공식 모델 페이지, 2026.03.26)

▲ 목차로 돌아가기

비용 90% 절감, 계산해보니 이렇습니다

“비용 90% 절감”이라는 말이 여러 곳에서 나오고 있습니다. 이게 어디서 나온 수치인지 직접 계산해봤습니다.

💡 공식 발표문과 실제 비용 구조를 같이 놓고 보니 이런 차이가 보였습니다

기존 프리미엄 3단계 스택(STT + LLM + TTS)의 실제 비용은 분당 약 $0.06~0.20입니다. Deepgram Nova-2 STT $0.0043/분, GPT-4o 기준 LLM $0.04~0.15/분, ElevenLabs TTS $0.015~0.06/분을 합산한 수치입니다. 반면 Gemini 3.1 Flash Live는 오디오 입력 $0.005/분, 오디오 출력 $0.018/분으로, 분당 모델 비용만 따지면 약 $0.023입니다. 계산하면 약 85~90% 절감입니다. (출처: Google AI 공식 가격 페이지, laozhang.ai 개발자 분석 2026.03.28)

그런데 여기서 조심할 게 있습니다. $0.023/분은 모델 비용만입니다. SIP 트렁킹(Twilio/Plivo 기준 $0.005~0.010/분)을 더하면 실제 총비용은 분당 약 $0.025~0.035 수준입니다. 그래도 기존 스택의 최저 시나리오($0.06/분) 대비 약 58%, 프리미엄 시나리오($0.20/분) 대비 약 88% 줄어든 건 맞습니다.

구성	분당 비용 (USD)	비고
기존 3단계 스택 (프리미엄)	$0.06~0.20	STT+LLM+TTS 합산
래퍼 플랫폼 (Vapi/Bland)	$0.09~0.15	오케스트레이션 마진 포함
Gemini 3.1 Flash Live (모델+SIP)	$0.025~0.035	공식 가격 기준 직접 계산

중요한 전제가 하나 있습니다. 이 수치는 현재 프리뷰 기간 가격을 기준으로 합니다. 정식 출시(GA) 이후 가격이 변경될 수 있으며 구글이 공식적으로 변경 계획을 밝힌 바는 없습니다.

▲ 목차로 돌아가기

2.5에서 올라갔는데 사라진 기능이 있습니다

⚠️ 3.1에서 삭제된 기능 3가지 (공식 문서 기준)

비동기 함수 호출(Async Function Calling) — 2.5에선 대화 중 도구가 백그라운드에서 돌아갔지만, 3.1은 동기 호출만 지원합니다. 도구 응답이 돌아올 때까지 모델이 멈춥니다.
프로액티브 오디오(Proactive Audio) — 2.5에서 지원하던 기능. 3.1에서 공식 제거됐습니다.
어펙티브 다이얼로그(Affective Dialog) — 사용자 감정 반응에 자동으로 톤을 맞추는 기능. 역시 3.1에서 빠졌습니다.

(출처: Google AI for Developers 공식 Live API 마이그레이션 가이드, 2026.03.26)

특히 비동기 함수 호출이 빠진 게 실무에서 가장 크게 영향을 줍니다. 예를 들어 음성 통화 중 CRM 조회, 일정 확인, 재고 조회 같은 작업을 대화 흐름과 동시에 돌리던 에이전트라면 3.1로 그대로 올리면 오히려 사용자 경험이 나빠집니다. 도구가 응답할 때까지 모델이 침묵하기 때문입니다.

항목	2.5 Flash Live	3.1 Flash Live
출력 토큰 한도	8,192	65,536
비동기 함수 호출	✅ 지원	❌ 미지원
프로액티브 오디오	✅ 지원	❌ 미지원
어펙티브 다이얼로그	✅ 지원	❌ 미지원
Thinking 설정 방식	thinkingBudget	thinkingLevel

기존 2.5 스택을 운영 중이고 위 세 기능 중 하나라도 쓰고 있다면, 3.1로 바로 올리는 건 재검토가 필요합니다. 신규 구축이라면 3.1이 맞는 시작점입니다.

▲ 목차로 돌아가기

지식 컷오프가 2025년 1월이라는 게 왜 중요한가

💡 음성 AI 모델에서 이 문제가 더 눈에 띄는 이유가 있습니다

텍스트 모델은 “모르면 모른다”고 답하거나 추정이라고 표시합니다. 그런데 실시간 음성 대화에서는 틀린 정보를 자연스러운 말투로 바로 뱉어버립니다. 상대는 그게 확신인지 추정인지 구분하기 어렵습니다. 최신 정보가 필요한 서비스라면 Search Grounding을 반드시 함께 써야 하는 이유가 여기 있습니다.

Search Grounding은 월 5,000회까지 공유 무료 쿼리를 제공하고 초과분은 1,000건당 $14입니다. 음성 1회 대화에서 검색이 5번 이루어진다고 가정하면 통화 1건당 약 $0.07이 추가됩니다. (출처: Google AI 공식 가격 페이지) 작은 금액이지만 대량 처리 시스템에서는 비용 시뮬레이션에 반드시 넣어야 합니다.

▲ 목차로 돌아가기

카메라 켜면 비용이 달라지는 이유

3.1 Flash Live에서 조용히 바뀐 게 있는데, 많은 글이 그냥 넘어갑니다. 기본 턴 커버리지(turn coverage)가 달라졌습니다.

2.5는 기본값이 TURN_INCLUDES_ONLY_ACTIVITY였습니다. 실제로 활동이 감지된 구간만 처리한다는 뜻입니다. 반면 3.1의 기본값은 TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO입니다. 카메라를 연결해두면 음성과 상관없이 모든 영상 프레임이 처리 대상이 됩니다. (출처: Google AI for Developers 공식 마이그레이션 가이드, 2026.03.26)

⚠️ 영상/이미지 입력 요금: $0.002/분 또는 $1.00/100만 토큰

10분 화상 통화 내내 카메라를 켜두면 영상 입력 비용만 $0.02가 추가됩니다. 작아 보이지만, 하루 1만 건의 통화가 이루어지는 컨택센터라면 하루 $200이 조용히 더 나가는 구조입니다. 2.5 스택을 그대로 3.1로 올리면서 카메라 스트림을 그대로 유지했다면, 이 부분을 별도로 확인해야 합니다.

해결책은 간단합니다. 음성이 메인이고 영상은 필요할 때만 쓴다면, 영상 스트림을 조건부로 전송하도록 코드를 바꾸면 됩니다. 구글 공식 마이그레이션 가이드에도 이 부분을 별도로 강조하고 있습니다.

▲ 목차로 돌아가기

실제 개발자 팀이 배포하며 겪은 것

joespeaking 팀이 Gemini 3.1 Flash Live를 실제 프로덕션에 배포한 뒤 구글 AI 개발자 포럼에 올린 사례(2026.03.29)를 보면, 벤치마크 숫자에는 잡히지 않는 실사용 특성이 드러납니다.

이 팀은 한 세션이 3~14분, 8~25턴으로 구성된 실시간 음성 대화 플랫폼을 운영합니다. 2.5에서 발생하던 1011 “Resource exhausted” 끊김 현상이 3.1에서는 사라졌고, 첫 응답 지연도 짧아졌으며 대화 자연스러움이 눈에 띄게 개선됐다고 보고했습니다. 이 팀은 “충분히 프로덕션 배포 가능하다”고 결론 내렸습니다.

하지만 두 가지 비결정적(non-deterministic) 문제도 같이 기록했습니다. 첫째, 배경 소음 탓에 모델이 10초 이상 침묵하는 턴 스톨(turn stall) 현상이 테스트 2세션 중 1회 발생했습니다. 둘째, 긴 대화 후반부에서 함수 호출 대신 음성으로 결과를 말해버리거나, 마무리 멘트를 두 번 반복하는 비결정적 동작이 간헐적으로 나타났습니다.

💡 ComplexFuncBench 1위라도 긴 대화 후반부는 다른 이야기입니다

Gemini 3.1 Flash Live는 복잡한 다단계 함수 호출 벤치마크(ComplexFuncBench Audio)에서 이전 모델 대비 90.8%의 성능으로 선두를 차지했습니다. (출처: Google 공식 블로그, 2026.03.26) 그런데 실제 3~14분 대화 후반부에서 함수 호출 신뢰도가 떨어지는 현상이 관찰됐습니다. 벤치마크는 짧은 멀티턴을 기준으로 측정한 결과이고, 긴 오디오 컨텍스트 누적은 다른 조건이라는 점에서 주목할 만합니다.

Search Live의 글로벌 확장과 함께 이 모델은 이제 200개 이상의 국가와 지역에서 AI 모드가 제공되는 모든 언어를 지원합니다. 한국어도 해당됩니다. (출처: Google Search 공식 블로그, 2026.03.26) 구글 앱에서 검색창 아래 Live 아이콘을 누르면 바로 써볼 수 있습니다.

▲ 목차로 돌아가기

Q&A

Q1. Gemini 3.1 Flash Live는 무료로 쓸 수 있나요?

현재 프리뷰(Preview) 상태로 Google AI Studio에서 개발자용 API를 통해 테스트할 수 있습니다. 일반 사용자는 구글 앱의 Gemini Live와 Search Live를 통해 체험할 수 있습니다. 다만 API를 통한 사용량에는 공식 가격이 적용되고, 프리뷰 기간에는 요율 제한(rate limit)이 정식 출시 버전보다 엄격합니다.

Q2. Gemini 2.5 Flash Live에서 3.1로 그냥 올려도 되나요?

새로 만드는 서비스라면 3.1이 맞는 선택입니다. 기존 2.5 서비스를 운영 중이라면 비동기 함수 호출, 프로액티브 오디오, 어펙티브 다이얼로그 세 기능의 사용 여부를 먼저 확인해야 합니다. 이 기능 중 하나라도 현재 사용 중이라면, 대안 구현 없이 바로 올리면 서비스 품질이 떨어집니다.

Q3. 세션 시간 제한이 있나요?

구글 공식 문서 기준으로 오디오 전용 세션은 15분, 오디오+영상 세션은 2분이 기본 한도입니다. 더 긴 대화가 필요하다면 구글이 제공하는 세션 관리 및 재연결(session resumption) 패턴을 별도로 구현해야 합니다.

Q4. 한국어 지원은 되나요?

됩니다. 3.1 Flash Live는 다국어를 기본으로 지원하며, 2026년 3월 26일 Search Live 글로벌 확장과 함께 200개 이상의 국가·지역에서 AI 모드가 지원되는 언어로 사용 가능해졌습니다. 한국어 포함입니다. (출처: Google Search 공식 블로그, 2026.03.26)

Q5. 출력 오디오에 워터마크가 들어가나요?

들어갑니다. 구글 공식 발표에 따르면 3.1 Flash Live가 생성하는 모든 오디오에는 SynthID 워터마크가 적용됩니다. 사람 귀로는 들리지 않지만 AI 생성 콘텐츠를 식별하는 디지털 마킹입니다. 소비자 대상 음성 서비스를 만든다면 이 부분을 서비스 약관에 명시하는 게 권장됩니다.

▲ 목차로 돌아가기

마치며

다만 “최신 버전이니까 다 낫다”는 전제는 맞지 않습니다. 비동기 함수 호출이 없어졌고, 지식 컷오프가 1년 2개월 전이며, 카메라 스트림을 켜두면 예상보다 비용이 나옵니다. 긴 대화 후반부에서 함수 호출 신뢰도가 낮아지는 현상도 실제 개발자 포럼에서 보고된 사항입니다.

새로 음성 에이전트를 만든다면 Gemini 3.1 Flash Live가 지금 가장 합리적인 출발점입니다. 기존 2.5 시스템을 올린다면 위에서 짚은 세 가지 삭제 기능을 먼저 체크하는 게 순서입니다.

▲ 목차로 돌아가기

📌 본 포스팅 참고 자료

구글 공식 블로그 — 제미나이 3.1 플래시 라이브: 더욱 자연스럽고 신뢰할 수 있는 오디오 AI
https://blog.google/intl/ko-kr/company-news/technology/gemini-31-flash-live-kr/
Google AI for Developers — Gemini 3.1 Flash Live Preview 공식 모델 페이지
https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-live-preview
Google DeepMind — Gemini 3.1 Flash Live Model Card
https://deepmind.google/models/model-cards/gemini-3-1-flash-live
Google Search 공식 블로그 — Search Live 글로벌 확장
https://blog.google/products-and-platforms/products/search/search-live-global-expansion
Google AI Developers Forum — Joe Hu, Gemini 3.1 Flash Live 프로덕션 배포 사례 (2026.03.29)
https://discuss.ai.google.dev/t/…

본 포스팅은 2026년 3월 31일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 모든 수치는 작성 시점 공식 문서 기준이며, 정식 출시(GA) 이후 달라질 수 있습니다.

Gemini 3.1 Flash Live가 뭔지 30초 요약

비용 90% 절감, 계산해보니 이렇습니다

2.5에서 올라갔는데 사라진 기능이 있습니다

지식 컷오프가 2025년 1월이라는 게 왜 중요한가

카메라 켜면 비용이 달라지는 이유

실제 개발자 팀이 배포하며 겪은 것

Q&A

마치며

댓글 남기기응답 취소

최신 글

카테고리

Tags

Gemini 3.1 Flash Live, 3가지 수치로 직접 따져봤습니다

Gemini 3.1 Flash Live가 뭔지 30초 요약

비용 90% 절감, 계산해보니 이렇습니다

2.5에서 올라갔는데 사라진 기능이 있습니다

지식 컷오프가 2025년 1월이라는 게 왜 중요한가

카메라 켜면 비용이 달라지는 이유

실제 개발자 팀이 배포하며 겪은 것

Q&A

마치며

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기