Gemini 3.1 Flash Live, 15분이 넘으면 끊깁니다
3월 26일 공개된 구글의 실시간 음성 AI 모델. 성능은 올랐지만, 공식 문서에 조용히 박혀 있는 제한 조건들이 있습니다.
오디오 세션 최대 15분
70개 언어 지원
결론부터 — 어떤 모델이고 뭐가 달라졌나
Gemini 3.1 Flash Live는 구글이 2026년 3월 26일 공개한 실시간 음성 AI 모델입니다. 공식 모델 ID는 gemini-3.1-flash-live-preview이고, Gemini Live API 위에서 동작하는 스트리밍 전용 모델입니다.
이전 모델인 Gemini 2.5 Flash Native Audio와 비교했을 때 눈에 띄는 변화가 두 가지 있습니다. 다단계 함수 호출 능력을 평가하는 ComplexFuncBench Audio 벤치마크에서 90.8%를 기록하며 1위를 차지했고 (출처: Google 공식 블로그, 2026.03.26), 출력 토큰 한도가 8,192에서 65,536으로 8배 늘었습니다 (출처: Google AI Dev 공식 문서). 8배 늘었다는 건, 한 번의 음성 응답에서 훨씬 긴 문장을 자연스럽게 뽑아낼 수 있다는 뜻입니다.
그런데 이 모델이 진짜 좋아졌는지 판단하려면 성능 수치보다 제약 조건을 먼저 봐야 합니다. 공식 문서를 뒤지다 보면, 대부분의 소개 글에 없는 내용들이 나옵니다.
💡 공식 발표문과 실제 API 구조를 같이 놓고 보니 이런 차이가 보였습니다: 제목에 나온 성능 향상은 사실이지만, 세션 관리 방식이 근본적으로 바뀌어서 기존 2.5 구조를 그대로 쓰면 문제가 생깁니다.
오디오 세션 15분 한도 — 공식 문서에 직접 나옵니다
대부분의 소개 글에서 빠져 있는 내용인데, Gemini Live API의 공식 Capabilities 문서에는 세션 한도가 명확하게 적혀 있습니다.
(출처: Google AI Dev Live API Capabilities 공식 문서, 2026.03.26 확인)
오디오 전용이어도 15분이 한도입니다. 이 숫자가 왜 중요하냐면, 고객 상담 봇이나 영어 회화 서비스처럼 긴 대화를 전제로 설계하려는 경우, 세션 관리 로직을 처음부터 다르게 짜야 한다는 뜻이기 때문입니다.
15분 이상 대화를 지속하려면 구글이 공식 문서에서 “Session Management & Resumption”이라고 부르는 별도 패턴을 구현해야 합니다. 단순히 세션을 재연결하는 것과 달리, 이전 대화 맥락을 어떻게 넘겨줄지 설계가 필요합니다. 이 부분은 공식 문서에서 별도 이유를 밝히지 않았습니다만, 인프라 리소스 관리와 관련된 기술적 한계로 보입니다.
📌 오디오 + 비디오를 동시에 쓰면 한도가 2분으로 내려갑니다.
이건 카메라를 켜 놓고 음성으로 대화하는 시나리오에서 치명적인 제약입니다. 짧은 데모 수준에서는 괜찮지만, 실제 서비스로 쓰기에는 설계가 완전히 달라져야 합니다.
분당 요금으로 계산해 봤습니다 — 10분 대화가 얼마냐면
Gemini API 공식 가격 문서(출처: ai.google.dev/gemini-api/docs/pricing, 2026.03.26 기준)에는 Gemini 3.1 Flash Live의 요금이 토큰 단위와 분 단위 두 가지로 함께 나옵니다. 분 단위 요금이 있다는 게 특이한데, 음성 서비스 특성상 실제 운영 비용을 토큰으로 추정하기 어려운 점을 반영한 것으로 보입니다.
분 단위 요금을 그대로 더해 보면, 오디오가 양방향으로 계속 흐르는 세션에서 1분당 비용은 다음과 같습니다.
오디오 입력: $0.005/분 × 10분 = $0.05
오디오 출력: $0.018/분 × 10분 = $0.18
오디오 합계: $0.23 (약 330원)
* 위 계산은 공식 가격 문서의 분당 요금을 그대로 곱한 추정치입니다. Google Search 그라운딩, 이미지/비디오 입력, 앱 인프라 비용은 별도입니다.
10분 대화에 330원 정도. 얼핏 싸 보이지만 여기에 Google Search 그라운딩을 더하면 달라집니다. 공식 가격 문서에 따르면, 월 5,000회 무료 쿼리를 다 쓴 이후 검색 1회당 $0.014가 붙습니다. 한 번의 대화에서 AI가 5회 검색을 한다고 가정하면 1회 통화당 약 $0.07이 추가됩니다. 그라운딩을 적극 쓰는 서비스라면 이 부분이 전체 비용에서 꽤 큰 비중을 차지할 수 있습니다.
2.5에서 사라진 기능 3가지 — 업그레이드인데 못 쓰는 게 생깁니다
Gemini 3.1 Flash Live로 넘어가면 당연히 2.5보다 좋아질 거라고 생각하게 됩니다. 벤치마크도 올랐고 출력 토큰도 늘었으니까요. 그런데 Google 공식 Migration 가이드를 보면 2.5에서만 되는 기능이 아직 세 가지 남아 있습니다. (출처: Google AI Dev Live API 공식 Capabilities 문서, 2026.03.26 확인)
이 중에서 실무적으로 가장 아픈 건 비동기 함수 호출 미지원입니다. 2.5에서는 AI가 말을 이어가면서 백그라운드에서 동시에 외부 API를 호출할 수 있었습니다. 3.1에서는 함수 호출이 동기 방식만 됩니다. AI가 도구 응답을 받을 때까지 아무 말도 못 하고 기다립니다. 빠른 응답이 생명인 음성 UX에서 이 차이는 꽤 크게 느껴집니다.
💡 Gemini 2.5와 3.1을 나란히 놓고 보면, 단순히 버전이 올라간 게 아닙니다. 2.5로 만든 기능 중 일부는 3.1로 가면 동작 방식 자체가 달라집니다. 기존 프로덕션 스택을 3.1로 올리기 전에 이 세 기능에 의존하고 있는지 먼저 체크해야 합니다.
비디오 스트리밍의 과금 함정 — 기본값이 달라졌습니다
Gemini 3.1 Flash Live에서 가장 조용하게, 그리고 실제로 비용에 영향이 큰 변화가 하나 있습니다. 바로 Turn Coverage 기본값입니다.
Gemini 2.5에서 기본값은 TURN_INCLUDES_ONLY_ACTIVITY였습니다. 즉, 음성 활동이 감지될 때만 처리했습니다. 그런데 3.1에서 기본값이 TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO로 바뀌었습니다. 비디오 스트림을 켜 놓으면, 말이 없어도 비디오 프레임이 계속 처리됩니다.
⚠️ 실제 상황에서 어떻게 생기냐면
2.5 기반으로 만든 앱이 사용자 화면을 보여주며 음성으로 대화하는 구조였다면, 3.1에서 그대로 올리면 비디오 프레임이 계속 과금됩니다. 음성이 목적이고 카메라는 간헐적으로만 필요한 경우라면, 비디오 스트림을 조건부로 전송하도록 구조를 바꿔야 합니다. (출처: Google AI Dev Live API 공식 Migration 문서, 2026.03.26)
공식 문서에는 “비디오를 조심해서 스트리밍하라(stream video cautiously)”라는 표현이 들어가 있습니다. 기능이 없어진 게 아니라, 쓰는 방식에 따라 요금이 예상보다 높게 나올 수 있다는 경고입니다. 처음 설계할 때 비디오를 항상 켜는 구조보다, 필요할 때만 보내는 구조가 비용 관리에 훨씬 유리합니다.
지금 시작하기에 맞는 구조와 맞지 않는 구조
공식 문서를 정리하면, Gemini 3.1 Flash Live가 잘 맞는 상황과 아직 무리인 상황이 꽤 명확하게 나뉩니다. (출처: Google AI Dev 공식 문서, 2026.03.26)
✅ 지금 시작해도 좋은 상황
처음부터 새로 음성 에이전트를 만드는 경우라면 3.1을 기준으로 설계하는 게 맞습니다. 2.5보다 출력 토큰이 8배 넓고, 툴 호출도 지원하며, 다국어 70개 언어를 기본으로 씁니다. 빠른 레이턴시와 자연스러운 대화 흐름에서 전작보다 개선됐다는 게 공식 입장입니다.
브라우저에서 직접 연결이 필요하다면, 백엔드에서 임시 토큰(Ephemeral Token)을 발급해 클라이언트에 넘기는 방식을 씁니다. API 키를 프론트에 노출하지 않아도 되는 구조로, 공식 문서가 이 방식을 권장합니다.
❌ 아직 3.1로 가기 어려운 상황
기존 2.5 기반 서비스에서 비동기 툴 호출을 활용하고 있다면, 3.1로 올리면 UX가 나빠집니다. AI가 말하면서 동시에 외부 데이터를 불러오던 흐름이 끊깁니다. 또 실시간 음성 합성 자체가 목적이고 대화 맥락이 필요 없는 경우라면, Live API보다 구글의 TTS 모델이 더 단순하고 비쌉니다. Live API는 대화 지능이 필요할 때 쓰는 구조입니다.
💡 브라우저에서 실시간 연결을 쓰려면, 임시 토큰 방식이 유일하게 안전한 방법입니다. 공식 문서에서도 장기 API 키를 클라이언트에 노출하지 말 것을 명시하고 있습니다. 임시 토큰은 기본 발급 후 1분 안에 세션을 열어야 하고, 연결 유지 시간은 30분입니다.
Q&A 5가지
마치며
Gemini 3.1 Flash Live는 실시간 음성 AI 분야에서 현재 가장 주목할 만한 모델입니다. ComplexFuncBench Audio 90.8%, 출력 토큰 8배 확대, 70개 언어 지원. 수치는 인상적입니다.
그런데 공식 문서를 직접 읽어보면 주의해야 할 지점이 보입니다. 오디오 세션은 최대 15분이고, 비디오를 켜면 2분입니다. 비동기 툴 호출은 아직 안 됩니다. 비디오 과금 기본값이 바뀌었습니다. 이 내용들은 발표 보도자료에는 잘 안 나옵니다.
솔직히 말하면, 지금 당장 새로 음성 에이전트를 만든다면 3.1로 시작하는 게 맞습니다. 하지만 기존 2.5 서비스를 올릴 때는 위에서 정리한 제약 조건을 먼저 체크하고 결정하는 게 낫습니다. 업그레이드인데 특정 기능이 퇴보하는 경험은 꽤 피곤합니다.
프리뷰 모델이라 앞으로 바뀔 가능성도 높습니다. 비동기 툴 호출이나 어펙티브 다이얼로그가 언제 추가될지는 아직 공개되지 않았습니다.
📚 본 포스팅 참고 자료
- 구글 공식 블로그 — 제미나이 3.1 플래시 라이브 출시 공고 (blog.google, 2026.03.26)
- Google DeepMind 모델 카드 — Gemini 3.1 Flash Live (deepmind.google, 2026.03.26)
- Google AI Dev — Gemini API 공식 가격 문서 (ai.google.dev, 2026.03.26 기준)
- Google AI Dev — Live API 공식 문서 (Capabilities, Session Management) (ai.google.dev)
본 포스팅은 2026년 3월 30일 기준 공개된 공식 문서를 바탕으로 작성되었습니다.
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.











댓글 남기기