📅 2026.03.26 공식 출시 기준 / gemini-3.1-flash-live-preview
Gemini 3.1 Flash Live, 이 조건이면 오히려 느려집니다
구글이 3월 26일 공개한 Gemini 3.1 Flash Live, 음성 AI 비용을 90% 줄인다는 말이 온라인에 넘칩니다. 그런데 실제로 따지면 “절반의 사실”입니다. 공식 문서와 실측 수치를 같이 놓고 보니 놓치면 안 되는 조건이 보였습니다.
200개국 다국어 지원
128K 입력 토큰 한도
Preview — GA 아님
지금 가장 많이 퍼진 말부터 확인했습니다
Gemini 3.1 Flash Live가 3월 26일 공개되자마자 “음성 AI 구축 비용이 90% 이상 줄어든다”는 문장이 빠르게 퍼졌습니다. 수치 자체가 틀린 건 아닙니다. 문제는 전제 조건이 빠져 있다는 점입니다.
기존 음성 에이전트는 보통 세 단계 스택으로 구성됩니다. STT(음성→텍스트)에 Deepgram이나 Whisper, LLM에 GPT-4o나 Claude, TTS(텍스트→음성)에 ElevenLabs를 연결하는 방식입니다. 이때 실비용은 분당 약 $0.06~$0.20 수준으로, 플랫폼 수수료를 얹으면 $0.09~$0.15까지 올라갑니다. (출처: Reddit r/B2BSaaS, 2026.03.28 실측 분석)
Flash Live는 이 세 단계를 하나로 합칩니다. 오디오를 받아서 오디오로 답하는 ‘네이티브 오디오’ 방식이라 STT·TTS 비용이 사라집니다. 이론상 구조적 비용 절감이 맞습니다. 그런데 “90%”라는 숫자는 프리미엄 3중 스택과 비교했을 때 기준입니다. 시작 조건이 달라지면 절감폭도 달라집니다.
실제 기능 구조 — 공식 문서 그대로
구글 AI 개발자 문서에 공개된 gemini-3.1-flash-live-preview의 스펙을 그대로 옮깁니다. (출처: Google AI for Developers 공식 모델 문서, 2026.03.26)
| 항목 | 내용 |
|---|---|
| 모델 코드 | gemini-3.1-flash-live-preview |
| 입력 토큰 한도 | 131,072 (약 128K) |
| 출력 토큰 한도 | 65,536 |
| 입력 형식 | 텍스트, 이미지, 오디오, 영상 |
| 출력 형식 | 텍스트, 오디오 |
| 기반 모델 | Gemini 3 Pro 기반 |
| 지식 컷오프 | 2025년 1월 |
| 지원 언어 | 90개 이상 다국어 실시간 처리 |
| 출시 단계 | Preview (GA 아님) |
ComplexFuncBench Audio 벤치마크에서 이전 모델 대비 90.8% 성능 1위, Scale AI AudioMultiChallenge에서 사고 모드 활성화 시 36.06%로 선두를 기록했습니다. (출처: Google 공식 블로그, 2026.03.26)
90.8%라는 수치는 다단계 함수 호출 능력을 기준으로 한 것입니다. 대화 도중 외부 도구를 연속 호출하는 시나리오에서 현재 가장 높은 점수입니다.
비용 90% 절감, 어디까지가 맞는 말인가요
💡 공식 발표문과 실제 비용 구조를 같이 놓고 보니 이런 차이가 보였습니다
Google이 요금을 아직 공개하지 않았습니다. “90%”는 이전 모델(2.5 Flash Native Audio) 요금 기준 추정치입니다.
구체적인 계산을 직접 따라해볼 수 있도록 정리했습니다. 오디오 토큰 처리 속도는 약 25토큰/초입니다. 1분 통화를 가정하면 입력 1,500토큰 + 출력 1,500토큰이 소요됩니다.
📊 비용 비교 계산식 (1분 통화 기준)
| 구분 | 비용/분 | 산출 근거 |
|---|---|---|
| 기존 3중 스택 (프리미엄) | $0.06~$0.20 | STT+LLM+TTS 합산 |
| Flash Live 추정 모델 비용 | 약 $0.021 | 2.5 Flash Native Audio 요금 기준 추정 |
| SIP 트렁킹 추가 시 합계 | 약 $0.025~$0.035 | Twilio/Plivo 기준 추가 비용 포함 |
※ Flash Live 공식 요금은 아직 미공개(2026.04.01 기준). 위 수치는 이전 세대 모델 요금 기반 추정치입니다. (출처: Reddit r/B2BSaaS, 2026.03.28)
프리미엄 스택 최대값($0.20)과 비교하면 약 85~90% 절감이 맞습니다. 그런데 이미 Vapi·Bland 같은 번들 플랫폼을 쓰고 있다면 출발점이 다릅니다. 이미 구조 최적화가 된 스택에서는 절감폭이 30~50% 수준으로 좁아질 수 있습니다.
게다가 Flash Live는 아직 Preview 단계입니다. Rate limit이 GA 모델보다 훨씬 타이트합니다. 오늘 당장 10,000석 규모 콜센터에 적용할 수 있는 단계가 아닙니다.
이전 버전 코드를 그대로 쓰면 막히는 조건 4가지
💡 구글 공식 마이그레이션 가이드와 실제 빌드 사례를 교차해보니 이 지점이 잘 안 보였습니다
2.5 Flash Native Audio 코드를 model string만 바꿔서 그대로 돌리면 4가지 지점에서 정확히 막힙니다.
① 비동기 함수 호출(Async Function Calling) — 미지원
Flash Live는 함수 호출이 동기(synchronous) 방식만 됩니다. 도구 응답을 보내기 전까지 모델이 응답을 시작하지 않습니다. (출처: Google AI Developers 공식 문서) 대화 도중 CRM을 실시간으로 조회하는 시나리오에서, 조회 응답이 늦어지면 전체 대화가 그만큼 멈춥니다. “낮은 레이턴시”라는 특장점이 이 지점에서 상쇄됩니다.
② Proactive Audio — 미지원
2.5 Flash Native Audio에서 쓸 수 있었던 Proactive Audio(모델이 먼저 말을 꺼내는 기능)가 3.1 Flash Live에서는 빠졌습니다. 기존 코드에 해당 설정이 들어가 있으면 앱이 오작동합니다. (출처: Google AI for Developers 공식 마이그레이션 가이드, 2026.03.26)
③ Affective Dialogue — 미지원
사용자의 감정 상태를 감지해 응답 톤을 조정하는 Affective Dialogue도 이번 버전에서는 지원하지 않습니다. 이 기능에 의존한 감성 응대 시나리오는 별도로 로직을 재구성해야 합니다.
④ `send_client_content` 사용 범위 축소
이전에는 대화 도중 자유롭게 쓸 수 있었던 `send_client_content`가 3.1에서는 초기 컨텍스트 이력 설정 용도로만 제한됩니다. 대화 중 텍스트 업데이트는 반드시 `send_realtime_input`으로 전환해야 합니다. model string 하나만 바꾼 팀이 가장 많이 걸리는 지점입니다.
⚠️ 구글 공식 문서의 표현 그대로: “Remove any configuration for these features from your code.” — 설정을 지우지 않으면 앱이 아예 실행되지 않습니다.
128K 토큰 제한, 실제 대화에서 어떤 의미인가요
💡 스펙표 숫자가 실제로 얼마나 버티는지 직접 계산해 봤습니다
Gemini 3.1 Pro의 1M 토큰 컨텍스트와 비교하면 Flash Live는 1/8 수준입니다. 음성 대화 시간으로 환산하면 숫자가 달라집니다.
공식 스펙에 따르면 Flash Live의 입력 토큰 한도는 131,072입니다. 오디오 토큰 처리 속도는 약 25토큰/초이므로, 입력 토큰만 기준으로 하면 순수 오디오 입력 가능 시간은 다음과 같습니다.
87분이면 충분하다고 느껴질 수 있습니다. 그런데 영상 입력이 동시에 들어오면 이야기가 달라집니다. 영상 프레임은 오디오보다 훨씬 많은 토큰을 소비합니다. 멀티모달 입력 상황에서는 컨텍스트가 훨씬 빨리 찹니다.
공식 마이그레이션 가이드는 “Turn Coverage 기본값이 `TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO`로 바뀌었다”고 명시합니다. 이전처럼 계속 영상 프레임을 보내는 앱 구조라면 컨텍스트 소진 속도가 예상보다 빠릅니다. 오디오 활동이 있을 때만 영상을 보내도록 로직을 바꾸는 게 비용과 컨텍스트 양쪽에서 유리합니다.
반면 Gemini 3.1 Pro의 입력 토큰 한도는 1,048,576(1M)입니다. (출처: Google AI Developers, Gemini 3.1 Pro 모델 문서) Flash Live는 Pro의 12.5% 수준입니다. 장시간 다중 모달 세션을 설계할 때는 이 차이가 체감으로 드러납니다.
GPT-4o Realtime과 어느 쪽이 나을까요
솔직히 말하면, 지금 시점엔 용도 분리가 가장 현실적인 답입니다. MindStudio의 비교 분석(2026.03.28)에 따르면, Anthropic Claude는 현재 Gemini Flash Live나 GPT-4o Realtime처럼 실시간 스트리밍 음성 인터페이스를 제공하지 않습니다. 음성 에이전트 비교는 사실상 Gemini vs GPT-4o 구도입니다.
| 비교 항목 | Gemini 3.1 Flash Live | GPT-4o Realtime |
|---|---|---|
| 입력 토큰 한도 | 약 128K | 비공개(세션 단위 관리) |
| 다국어 지원 | 90개 이상 언어 | 주요 언어 지원 |
| 비동기 함수 호출 | 미지원 (동기만) | 지원 |
| GA 여부 | Preview | GA |
| 추정 비용 우위 | 낮음 (추정) | 상대적으로 높음 |
대규모 다국어 음성 서비스를 빠르게 구축해야 한다면 Flash Live의 90개 이상 언어 지원과 비용 구조가 매력적입니다. 반면 실시간 CRM 연동처럼 도구 호출 신뢰성이 핵심인 B2B 시나리오에서는 비동기 함수 호출을 지원하는 GPT-4o Realtime 쪽이 지금 시점엔 더 안정적입니다.
Flash Live가 GA로 전환되고 비동기 함수 호출이 추가되면 이 판단이 바뀔 수 있습니다. Google이 공식 일정을 밝히지 않은 부분입니다.
Q&A
마치며
Gemini 3.1 Flash Live는 분명히 중요한 변화입니다. 음성 에이전트 구축 비용을 구조적으로 낮추고, Search Live를 통해 일반 사용자에게도 실시간 멀티모달 검색을 열어줬습니다. 다국어 실시간 대화라는 부분에서 현재 가장 앞서 있다고 봐도 과하지 않습니다.
그런데 “비용 90% 절감”이라는 문장만 보고 바로 프로덕션에 적용하면 막히는 지점이 있습니다. Preview 단계의 Rate limit, 비동기 함수 호출 미지원, 이전 코드와의 비호환성, 미공개 요금 — 이 네 가지는 공식 문서에 명시된 사실입니다.
써보기 전에 공식 마이그레이션 가이드를 먼저 읽는 것, 이게 지금 시점에서 가장 현실적인 조언입니다.
📎 본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini 3.1 Flash Live는 현재 Preview 단계이며, 요금·기능·Rate limit은 GA 전환 시 달라질 수 있습니다. 본문 내 수치는 공식 발표 자료 및 공개된 실측 자료를 바탕으로 하되, 추정치는 “추정” 또는 “약”으로 표기했습니다.











댓글 남기기