gemini-3.1-flash-live-preview
Preview 단계
Gemini 3.1 Flash Live,
좋아졌지만 안 되는 게 생겼습니다
구글이 2026년 3월 26일 Gemini 3.1 Flash Live를 내놓았습니다. 벤치마크 1위, 비용 대폭 절감, 음성 품질 향상 — 발표문만 보면 완벽해 보입니다. 그런데 공식 마이그레이션 가이드를 직접 열어보니 이전 모델(2.5 Flash Live)에서 됐던 기능 세 가지가 3.1에서 빠져 있었습니다. 뭐가 사라졌고, 비용이 실제로 어떻게 달라지는지 공식 문서 기준으로 정리했습니다.
Gemini 3.1 Flash Live란 무엇인가
Gemini 3.1 Flash Live는 구글이 2026년 3월 26일 공식 출시한 실시간 음성 AI 모델입니다. 모델 ID는 gemini-3.1-flash-live-preview이며, Gemini Live API 위에서 작동합니다. 핵심은 STT(음성 인식)→LLM(추론)→TTS(음성 합성)로 이어지는 기존 3단계 파이프라인 없이, 오디오 입력을 토큰으로 직접 처리하고 오디오로 바로 출력하는 구조입니다.
소음이 심한 환경에서도 복잡한 함수 호출을 수행할 수 있도록 설계됐고, 음조와 속도 같은 음향적 뉘앙스를 인식해서 사용자가 불만을 표현하거나 혼란스러워하는 경우 응답 방식을 조정합니다. 구글 AI 스튜디오의 스트림 모드에서 바로 체험해볼 수 있고, 개발자는 Gemini Live API를 통해 프리뷰 버전으로 접근 가능합니다. (출처: Google 공식 블로그, 2026.03.26)
어떤 제품에서 쓸 수 있나요
개발자용으로는 Google AI Studio의 Gemini Live API, 기업용으로는 고객 경험 전용 Gemini Enterprise, 일반 이용자에게는 Gemini Live와 Search Live를 통해 제공됩니다. 특히 Search Live는 이번 주부터 200개국 이상으로 서비스를 확대했는데, 그 기반 모델이 바로 3.1 Flash Live입니다. 언어 200개국 확장을 단독으로 지탱할 수 있는 다국어 처리 능력이 모델 설계 단계부터 포함됐다는 뜻입니다. (출처: Google 공식 블로그, 2026.03.26)
💡 발표문에는 “품질 향상”만 강조됐지만, 공식 문서에는 2.5에서 됐던 기능들이 아직 3.1에서 지원되지 않는다는 내용이 별도 마이그레이션 섹션에 나옵니다. 홍보 자료와 개발 문서를 나란히 놓고 봤을 때 차이가 보이는 부분입니다.
기존 음성 AI 스택 대비 비용이 어떻게 달라지나
Gemini 3.1 Flash Live의 공식 요금은 구글 AI 개발자 가격 페이지에 직접 나와 있습니다. 오디오 입력은 분당 $0.005, 오디오 출력은 분당 $0.018으로, 양방향 음성이 동시에 흐르는 통화 기준으로 더하면 분당 약 $0.023입니다. 10분짜리 대화 한 건에 약 $0.23(약 330원)입니다. (출처: Google AI for Developers 가격 페이지, 2026.03.31 기준)
기존에 Deepgram + GPT-4o + ElevenLabs처럼 STT·LLM·TTS를 따로 붙이는 3단계 방식을 쓰면 분당 $0.06~$0.20 수준이 나왔습니다. Vapi나 Bland 같은 래퍼 플랫폼을 통하면 $0.09~$0.15/분 수준이었습니다. 3.1 Flash Live 단독 모델 비용($0.023/분)과 SIP 트렁킹 비용($0.005~$0.010/분)을 합산하면 $0.025~$0.035/분으로, 최대 85~90%가 줄어듭니다. 이 수치가 실제로 성립하는 이유는 STT와 TTS 단계가 사라지기 때문입니다. (출처: Reddit r/B2BSaaS, AI call analytics 운영자 분석, 2026.03.28)
| 구성 방식 | 분당 비용 | 비고 |
|---|---|---|
| STT + GPT-4o + ElevenLabs | $0.06~$0.20 | 3단계 API 호출 |
| 래퍼 플랫폼(Vapi 등) | $0.09~$0.15 | 오케스트레이션 마진 포함 |
| 3.1 Flash Live + SIP 트렁킹 | 약 $0.025~$0.035 | 네이티브 오디오, STT·TTS 불필요 |
모델 비용만 보면 안 되는 이유
구글 검색 그라운딩을 쓰면 월 5,000건까지 무료지만, 그 이후엔 쿼리당 $0.014가 붙습니다. 통화 중 검색을 매 턴마다 쓴다고 가정하면 5회 검색에 약 $0.07이 추가됩니다. 절대 금액은 크지 않지만, 검색을 공격적으로 사용하는 에이전트라면 검색 그라운딩 비용이 모델 비용보다 커질 수도 있습니다. (출처: Google AI for Developers 가격 페이지, 2026.03.31 기준)
버전을 올렸더니 오히려 안 되는 것들
대부분의 리뷰 글이 3.1의 개선점에 집중합니다. 그런데 구글이 공개한 공식 마이그레이션 가이드에는 “현재 지원하지 않는 기능”이 명확히 나열돼 있습니다. 2.5 Flash Live에서는 됐던 것들입니다. (출처: Google AI for Developers Live API 가이드, 2026.03.31 기준)
⚠️ 3.1 Flash Live에서 아직 지원하지 않는 기능
- 비동기 함수 호출(Async Function Calling) — 2.5에서는
behavior: NON_BLOCKING으로 모델이 도구 실행을 기다리지 않고 대화를 이어갈 수 있었습니다. 3.1에서는 동기 방식만 가능합니다. - Proactive Audio — 입력 내용이 응답하기에 적절하지 않을 때 모델이 스스로 침묵을 선택하는 기능입니다. 3.1에서는 빠져 있습니다.
- Affective Dialogue — 사용자의 감정 표현과 어조에 맞게 응답 스타일을 자동으로 조정하는 기능입니다. 역시 3.1에서 지원하지 않습니다.
비동기 함수 호출이 왜 중요한가
비동기 함수 호출이 없으면, 모델이 CRM 조회나 일정 확인 같은 도구를 호출할 때 응답 자체를 멈추고 기다려야 합니다. 사용자 입장에서는 AI가 갑자기 말을 끊고 멈추는 것처럼 느껴집니다. 고객 상담이나 예약 처리처럼 도구 호출이 잦은 환경에서는 대화 경험이 눈에 띄게 나빠집니다. 이 부분이 구글이 공개적으로 이유를 밝히지 않은 채 제거된 상태입니다.
실제로 B2B SaaS 개발자 커뮤니티에서도 “도구 호출 신뢰성을 위해 3.1로 넘어가고 싶어도, 비동기 함수 호출 제거가 치명적”이라는 반응이 나오고 있습니다. 이미 2.5 기반으로 도구 호출 위주의 음성 에이전트를 운영 중이라면 3.1 전환을 서두를 이유가 없습니다.
출력 토큰 8배 증가, 실제로 뭐가 달라지나
3.1에서 개선된 수치 중 거의 언급이 안 되는 것이 있습니다. 출력 토큰 한도가 8,192 → 65,536으로 8배 늘었습니다. 이건 단순 스펙 수치가 아닙니다. (출처: Google AI for Developers, 모델 사양 페이지, 2026.03.31 기준)
음성 AI에서 출력 토큰이 부족하면 대화가 길어질수록 응답이 잘리거나 맥락이 끊깁니다. 2.5의 8,192 토큰은 약 6,000~7,000개 한국어 글자 분량에 해당하는데, 복잡한 상담 흐름이나 긴 브리핑을 처리하다 보면 중간에 제한에 걸리는 경우가 생겼습니다. 65,536 토큰은 같은 기준으로 50,000자 이상을 처리할 수 있습니다. 긴 음성 세션을 자르지 않고 이어갈 수 있는 여지가 커진 셈입니다.
💡 벤치마크 점수보다 이 수치가 실사용 면에서 더 실질적인 변화입니다. 출력 한도가 늘어났다는 건, 긴 대화에서 응답을 억지로 끊지 않아도 된다는 뜻이기 때문입니다.
세션 지속 시간 제한은 여전히 있습니다
출력 토큰이 늘었다고 해서 세션을 무한정 유지할 수 있는 건 아닙니다. 공식 문서에 따르면 오디오 전용 세션은 15분, 오디오+비디오 세션은 2분으로 제한됩니다. 더 긴 대화가 필요하면 구글이 별도로 제공하는 세션 재개(Session Resumption) 패턴을 적용해야 합니다. (출처: Google AI for Developers Live API 가이드, 2026.03.31 기준)
비디오를 같이 쓰면 청구서가 달라질 수 있는 이유
2.5에서 3.1로 넘어오면서 기본 턴 커버리지(Turn Coverage) 설정이 바뀌었습니다. 2.5는 기본값이 TURN_INCLUDES_ONLY_ACTIVITY, 즉 감지된 활동만 포함했습니다. 3.1은 기본값이 TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO로 바뀌어서, 비디오 스트림 전체 프레임이 포함됩니다. (출처: Google AI for Developers Live API 가이드, 2026.03.31 기준)
이미지/비디오 입력 요금은 분당 $0.002입니다. 음성 위주 에이전트인데 카메라 스트림을 그냥 켜두면, 필요하지도 않은 비디오 프레임이 계속 과금됩니다. 2.5 기반 앱에서 카메라를 상시 전송하던 구조였다면, 3.1로 넘어갈 때 반드시 비디오 전송 조건을 다시 점검해야 합니다. 이 부분은 대다수 리뷰 글에 나오지 않는 내용입니다.
SynthID 워터마크는 선택이 아닙니다
3.1 Flash Live가 생성하는 오디오에는 SynthID 워터마크가 자동으로 적용됩니다. 이 워터마크는 사람이 인식할 수 없는 방식으로 오디오 파일에 내장되며, AI 생성 콘텐츠 식별에 사용됩니다. 끄거나 선택에서 제외할 수 없습니다. 소비자 향 음성 서비스를 구성한다면 이 점을 제품 설계 단계에서 반영해야 합니다. (출처: Google 공식 블로그 및 DeepMind 모델 카드, 2026.03.26)
지금 3.1로 넘어가야 할까, 2.5에 머물러야 할까
공식 문서의 권장 사항은 명확합니다. 새로 만든다면 3.1을 기본으로 써라. 이미 2.5 기반으로 운영 중이라면, 아래 세 가지 기능 중 하나라도 쓰고 있는지 먼저 확인하라는 게 구글의 입장입니다. (출처: Google AI for Developers, 마이그레이션 가이드, 2026.03.31 기준)
✅ 3.1로 넘어가도 되는 경우
- 처음부터 새로 음성 에이전트를 만드는 경우
- 도구 호출 빈도가 낮거나, 동기 방식으로도 사용자 경험이 충분한 경우
- 비용 절감이 최우선 과제인 경우 (기존 대비 최대 90% 절감)
- 긴 응답이 자주 필요한 케이스 (출력 토큰 65,536)
⏸ 2.5에 머무는 게 나은 경우
- 비동기 함수 호출(
NON_BLOCKING)이 이미 프로덕션에 적용돼 있는 경우 - Proactive Audio나 Affective Dialogue를 사용 중인 경우
- 비디오 스트리밍을 상시 켜두는 구조라서 3.1의 기본 턴 커버리지 변경이 비용에 영향을 주는 경우
3.1이 무조건 더 낫다는 말이 많지만, 현재 시스템의 어떤 기능에 의존하고 있느냐에 따라 전환이 오히려 품질을 낮추는 경우가 생깁니다. 전환 전에 기능 의존성부터 점검하는 것이 순서입니다.
Q&A
Gemini 3.1 Flash Live는 지금 무료로 쓸 수 있나요?
네, 무료 티어에서도 접근 가능합니다. 구글 AI 개발자 가격 페이지 기준으로 Gemini 3.1 Flash Live는 프리 티어에서 무료로 제공됩니다. 단, 프리뷰 모델이기 때문에 레이트 리밋(속도 제한)이 유료 티어보다 더 엄격합니다. 프로덕션 규모의 트래픽을 처리하려면 유료 전환이 필요합니다. (출처: Google AI for Developers 가격 페이지, 2026.03.31 기준)
GPT-4o Realtime API와 비교하면 어떤가요?
비용 면에서 3.1 Flash Live는 상당히 유리합니다. GPT-4o Realtime API의 오디오 입/출력 요금과 비교하면 3.1 Flash Live의 분당 $0.023이 전반적으로 낮은 편입니다. 다만 지연 시간(레이턴시)이나 도구 호출 신뢰성은 실제 사용 환경에 따라 달라질 수 있어서, 공식 수치가 별도로 공개되지 않은 부분은 직접 테스트로 검증이 필요합니다.
브라우저에서 직접 연결할 수 있나요?
가능하지만 구글의 권장 방식은 아닙니다. Live API는 기본적으로 서버 간(server-to-server) 인증 방식으로 설계됐습니다. 브라우저에서 직접 연결하려면 백엔드에서 임시 토큰(ephemeral token)을 발급해서 클라이언트에 전달하는 구조를 써야 합니다. 발급 후 1분 내 세션 시작, 30분간 연결 유지가 기본값입니다. (출처: Google AI for Developers 공식 문서, 2026.03.31 기준)
한국어 지원은 어떤가요?
한국어 포함 97개 언어를 지원합니다. 네이티브 오디오 출력 모델은 언어 코드를 별도로 지정할 필요 없이 모델이 입력 언어를 자동으로 인식해 적절한 언어로 응답합니다. 이번 Search Live 글로벌 확장(200개국+)도 이 다국어 처리 능력이 기반입니다. (출처: Google AI for Developers Live API 가이드, 2026.03.31 기준)
출력이 텍스트인지 오디오인지 선택할 수 있나요?
3.1 Flash Live는 네이티브 오디오 모델로, 응답 모달리티가 AUDIO로 고정됩니다. 텍스트 출력이 필요하다면 응답을 텍스트로 받는 것이 아니라 출력 오디오 트랜스크립션(output audio transcription) 기능을 켜서 오디오를 텍스트로 변환하는 방식을 써야 합니다. 모델 사양 페이지에는 텍스트 출력이 가능한 것처럼 표기돼 있지만, Live API 가이드에서는 네이티브 오디오 모델은 AUDIO 모달리티만 지원한다고 나옵니다. (출처: Google AI for Developers 공식 문서, 2026.03.31 기준)
마치며
Gemini 3.1 Flash Live는 실제로 진지하게 쓸 수 있는 실시간 음성 AI 모델입니다. 비용 구조가 기존 3단계 방식 대비 최대 90% 낮아졌고, 출력 토큰 한도가 8배로 늘어난 건 숫자 이상의 의미가 있습니다. Search Live가 200개국에 동시에 배포될 수 있었던 것도 이 모델이 다국어 처리를 제대로 지원하기 때문입니다.
다만 “더 좋은 버전”이 반드시 “지금 당장 업그레이드해야 할 버전”을 의미하지는 않습니다. 비동기 함수 호출, Proactive Audio, Affective Dialogue — 이 세 가지가 2.5에서만 되고 3.1에서 아직 안 되는 건 발표문 어디에도 눈에 띄게 쓰여 있지 않습니다. 공식 마이그레이션 가이드를 직접 열어봐야 알 수 있는 내용입니다.
Preview 단계인 만큼 이 기능들이 추후 3.1에 추가될 가능성은 충분히 있습니다. 지금 시점의 판단 기준은 하나입니다. 현재 어떤 기능에 의존하고 있느냐에 따라 전환 시점이 달라집니다.
📎 본 포스팅 참고 자료
- 제미나이 3.1 플래시 라이브 공식 발표 — Google 공식 블로그 (2026.03.26)
- Gemini 3.1 Flash Live 모델 카드 — Google DeepMind (2026.03.26)
- Gemini Live API 공식 가이드 — Google AI for Developers (2026.03.31 기준)
- Gemini API 공식 가격 페이지 — Google AI for Developers (2026.03.31 기준)
- Gemini 3.1 Flash Live Preview 모델 사양 — Google AI for Developers (2026.03.31 기준)
본 포스팅은 2026년 3월 31일 공개된 공식 자료를 기준으로 작성되었습니다. Gemini 3.1 Flash Live는 현재 Preview 단계이며, 본 포스팅 작성 이후 서비스 정책·기능·요금·UI가 변경될 수 있습니다. 구체적인 개발·사업 판단 시 Google AI for Developers 공식 문서에서 최신 정보를 직접 확인하시기 바랍니다.











댓글 남기기