Gemini 3.1 Flash Live, 공식 수치 4가지로 직접 확인했습니다
음성 비용 90% 절감? 맞습니다. 단, 비교 대상을 먼저 봐야 합니다.
음성 AI
ComplexFuncBench 1위
90개+ 언어 지원
Flash Live가 ‘다른 런타임’인 이유
이름에 ‘3.1’이 붙어 있어서 표준 Gemini 3 Flash의 업그레이드 버전처럼 보이지만, 공식 개발자 문서는 다르게 설명합니다. Gemini 3.1 Flash Live는 표준 Flash와 기능 집합 자체가 다른 별개의 런타임입니다. (출처: Google AI for Developers 공식 문서, 2026.03.26)
표준 Gemini 3 Flash는 Batch API, 캐싱, 파일 검색, 구조화 출력, 코드 실행, 컴퓨터 사용 등 백엔드 개발에 필요한 기능 대부분을 지원합니다. Flash Live는 이 중 상당수를 지원하지 않고, 대신 오디오 인/아웃과 실시간 대화에 특화됩니다. 쉽게 말해 둘 다 ‘플래시’라는 이름을 쓰지만 아예 다른 도구입니다.
실제로 구글이 공개한 모델 문자열을 보면 표준 모델은 gemini-3-flash-preview, 음성 전용은 gemini-3.1-flash-live-preview, 저가형은 gemini-3.1-flash-lite-preview로 각각 다릅니다. ‘3.1’이 더 새 버전이라서 붙은 게 아닙니다.
수치 1 · 2 — 벤치마크: 정말 업계 1위일까요?
구글 공식 블로그(한국어판, 2026.03.26)에서 두 가지 벤치마크 수치를 확인했습니다.
💡 공식 발표와 실제 사용 환경을 같이 놓고 보니 이런 차이가 보였습니다.
두 벤치마크 모두 ‘오디오 음성 환경’에 특화된 지표입니다. 텍스트 출력 성능을 반영하지 않습니다.
① ComplexFuncBench Audio 1위: 다단계 함수 호출 능력을 오디오 환경에서 측정하는 벤치마크에서 이전 모델 대비 90.8% 성능을 기록하며 1위를 차지했습니다. (출처: 구글 공식 블로그, 2026.03.26) 실시간 대화 중 외부 툴을 정확히 호출하는 능력입니다. 음성 에이전트를 만들 때 결정적 지표입니다.
② AudioMultiChallenge 1위: Scale AI의 오디오 추론 벤치마크에서 사고(thinking) 모드 활성화 시 36.06%로 1위를 기록했습니다. (출처: 구글 공식 블로그, 2026.03.26) 대화 중단, 망설임, 복잡한 지시 등 실제 오디오 환경 시나리오를 반영합니다.
두 지표 모두 ‘실시간 음성 대화 품질’을 재는 지표입니다. 텍스트 처리 성능을 기준으로 다른 모델과 비교할 수 없습니다.
수치 3 — 요금: 텍스트 워크로드엔 가장 비쌉니다
💡 ‘Flash Live가 더 새 모델’이라서 기본 모델 대신 쓰면 요금이 오릅니다.
공식 가격 페이지에서 직접 계산한 수치입니다.
Gemini Developer API 공식 가격 문서(ai.google.dev/gemini-api/docs/pricing)에서 확인한 요금은 아래와 같습니다.
※ 출처: Gemini Developer API 공식 가격 문서 (ai.google.dev/gemini-api/docs/pricing, 2026.03.28 기준)
텍스트 입출력 기준으로 Flash Live는 표준 Flash보다 비쌉니다. 월 입력 1,000만 토큰·출력 200만 토큰의 순수 텍스트 워크로드라면 아래와 같이 차이가 납니다.
Flash Live를 텍스트 백엔드에 그냥 붙이면 표준 Flash 대비 50% 더 냅니다. 음성이 필요 없는 앱에 쓰면 복잡성 비용까지 더해집니다.
수치 4 — 컨텍스트 윈도우: 표준 Flash의 8분의 1
💡 요금 비교보다 훨씬 큰 실질적 차이가 여기 있습니다.
문서 처리, 파일 기반 에이전트에 Flash Live를 쓰면 컨텍스트가 8배 짧아집니다.
공식 모델 페이지에서 확인한 컨텍스트 윈도우 크기입니다. (출처: Gemini Developer API 모델 문서, 2026.03.28 기준)
- Gemini 3 Flash (표준): 입력 토큰 1,048,576개 / 출력 65,536개
- Gemini 3.1 Flash Live: 입력 토큰 131,072개 / 출력 8,192개
- Gemini 3.1 Flash-Lite: 입력 토큰 1,048,576개 / 출력 65,536개
1,048,576 토큰이면 React 전체 코드베이스 8개 분량입니다. Flash Live의 131,072 토큰은 그것의 약 12.5%에 불과합니다. 장문 PDF 분석, 코드베이스 전체를 컨텍스트에 올리는 에이전트 워크플로우에 Flash Live를 쓰면 컨텍스트가 잘려 나갑니다.
그리고 Flash-Lite와 표준 Flash는 컨텍스트 윈도우가 동일합니다. Flash Live만 혼자 다른 겁니다. 이 하나만으로도 Flash Live가 완전히 다른 제품임을 알 수 있습니다.
음성 에이전트 비용 90% 절감, 실제 계산
Flash Live가 진짜 빛을 발하는 건 기존 STT → LLM → TTS 삼중 스택을 대체할 때입니다. AI 음성 에이전트를 이미 운영 중인 개발자들의 실제 분석을 정리했습니다. (출처: Reddit r/founder, 2026.03.29)
※ Flash Live 비용은 2.5 Flash Native Audio 기준 추정치입니다. 3.1 Flash Live 공식 요금은 아직 미발표 상태입니다. (출처: Reddit 실무자 분석, 2026.03.29)
분당 $0.06~0.20에서 $0.025~0.035으로 줄어드는 겁니다. 85~90% 절감이 맞습니다. 단, 이건 기존에 Deepgram + GPT-4o + ElevenLabs 조합을 쓰던 경우와 비교한 수치입니다. 표준 Flash 백엔드와 비교하면 다릅니다.
지금 쓰기 전에 봐야 할 제약 조건
Flash Live는 아직 프리뷰(Preview) 상태입니다. 구글이 공식적으로 밝히지 않은 부분도 있고, 이미 확인된 제약도 있습니다.
💡 마이그레이션 문서를 보면 이런 동작 변화가 있습니다.
이전 음성 모델에서 Flash Live로 넘어갈 때 코드를 그냥 모델 문자열만 바꾸면 에러가 납니다.
확인된 제약 조건 (출처: Google Gemini Live API 공식 문서, 2026.03.28):
- Batch API 미지원 — 대량 비동기 작업 불가
- 캐싱 미지원 — 반복 요청 비용 절감 불가
- 파일 검색 미지원 — 문서 기반 RAG 워크플로우 불가
- 구조화 출력(JSON 스키마) 미지원
- URL 컨텍스트 미지원
thinkingBudget대신thinkingLevel파라미터 사용 (API 변경)- 함수 호출이 동기식만 지원 — 비동기 함수 호출 패턴 사용 불가
- 프로액티브 오디오, 감성 대화 기능 미지원
- 레이트 리밋이 GA 모델보다 제한적
특히 마이그레이션 시 thinkingBudget을 thinkingLevel로 바꿔야 합니다. 구글 공식 마이그레이션 문서에 명시된 사항이며, 구버전 파라미터 그대로 쓰면 에러가 납니다. (출처: Gemini Live API 공식 문서, 2026.03.28)
또 지연 시간(레이턴시)에 대해 구글이 공식적으로 구체적인 ms 수치를 발표하지 않았습니다. “sub-300ms처럼 느껴진다”는 실측 후기는 있지만, 보장된 수치가 아닙니다. 프로덕션 SLA 요건이 있는 서비스는 직접 부하 테스트가 필요합니다.
Q&A 5가지
Q1. Flash Live가 출시됐으니 기존 Flash 앱을 바로 교체하면 될까요?
텍스트 출력 앱이라면 교체하지 마세요. 요금이 올라가고 컨텍스트 윈도우가 줄어들며, Batch API와 구조화 출력 같은 백엔드 기능이 빠집니다. Flash Live는 음성 입출력이 핵심 기능인 앱에만 써야 합니다.
Q2. Search Live 글로벌 확대와 Flash Live는 어떤 관계인가요?
구글이 3월 26일 동시에 발표한 Search Live 글로벌 확대(200개국 이상)를 Flash Live가 뒷받침합니다. 90개 이상 언어를 실시간 멀티모달 대화로 지원합니다. 구글 검색에서 말로 검색하는 경험의 기반 모델입니다. (출처: 구글 공식 블로그, 2026.03.26)
Q3. 프리뷰 상태에서 프로덕션에 써도 될까요?
규모가 작은 프로젝트는 써볼 만합니다. 단, 레이트 리밋이 GA 모델보다 제한적이고, 가격이 향후 바뀔 수 있습니다. 대규모 서비스 전환은 GA 발표를 기다리거나 트래픽 일부만 라우팅해서 테스트하는 게 낫습니다.
Q4. OpenAI의 음성 모델과 비교하면 어떤가요?
직접적인 공식 비교 수치는 Google이 발표하지 않았습니다. 다만 ComplexFuncBench Audio에서 Flash Live가 1위를 기록했다고 발표했습니다. 비용 면에서 프리뷰 기준 Flash Live가 GPT-4o 기반 삼중 스택보다 유리한 수치가 실무자 분석에서 나왔지만, 공식 비교 벤치마크는 아직 공개된 것이 없습니다.
Q5. SynthID 워터마크가 실제로 어떻게 작동하나요?
Flash Live가 생성하는 모든 오디오에는 사람이 인식할 수 없는 SynthID 워터마크가 자동 내장됩니다. 오디오 신호 자체에 직접 삽입되며, 별도 설정 없이 기본 적용됩니다. AI가 생성한 음성임을 감지하는 데 쓰입니다. (출처: 구글 공식 블로그 한국어판, 2026.03.26)
마치며
Gemini 3.1 Flash Live는 실시간 음성 에이전트가 필요한 팀에게 확실히 의미 있는 선택지입니다. ComplexFuncBench Audio 1위 수치와 90개 이상 언어 지원, STT·TTS를 생략한 비용 구조는 실제로 유효합니다. 하지만 텍스트 기반 앱에 이름만 보고 적용하면 요금이 올라가고 컨텍스트가 줄어듭니다. 공식 수치 4가지가 말하는 결론은 하나입니다. 음성이 핵심 기능인 앱이면 써볼 가치가 있고, 그렇지 않다면 표준 Flash나 Flash-Lite가 더 나은 선택입니다. 아직 프리뷰라는 점도 잊지 마세요.
본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있습니다. 모든 수치는 2026년 3월 28일 기준 공식 문서 기반이며, 프리뷰 단계 특성상 GA 출시 시 내용이 달라질 수 있습니다.











댓글 남기기