Gemini Live API v3.1
공식 수치 기반
Gemini 3.1 Flash Live, 수치 4개로 따져봤습니다
구글이 3월 26일 조용히 공개한 이 모델, 뭔가 달라도 분명히 다릅니다. 지연 시간 200ms, 세션 15분 제한, 오디오 출력 $12/MTok, 벤치마크 1위 36.06% — 공식 문서에 딱 이렇게 나옵니다. 좋은 것도, 생각보다 아쉬운 것도 있습니다. 수치부터 보겠습니다.
Gemini 3.1 Flash Live가 뭔지 먼저 확인했습니다
Gemini 3.1 Flash Live는 2026년 3월 26일 구글이 공개한 실시간 음성 전용 모델입니다. 공식 명칭은 “voice-first AI”로, 텍스트 기반 API와 달리 오디오 스트림을 WebSocket으로 연속 처리합니다. (출처: Google AI Blog, 2026.03.26)
기존 Gemini Live API가 2.5 Flash 기반으로 운영되다가, 이번 3.1 Flash Live로 교체된 구조입니다. 구글 공식 모델 카드에 따르면 이 모델의 기반 아키텍처는 Gemini 3 Pro입니다. (출처: Google DeepMind Model Card, 2026.03.26) Flash라는 이름이 붙어 있지만, Pro의 뼈대를 쓰고 있다는 점이 핵심입니다.
입력은 16kHz PCM 오디오·초당 1프레임 이하 이미지·텍스트를 받고, 출력은 24kHz PCM 오디오와 텍스트를 내보냅니다. 컨텍스트 윈도우는 128K 토큰, 최대 출력 64K 토큰입니다. (출처: Google DeepMind Model Card, 2026.03.26)
💡 공식 발표문과 모델 카드를 나란히 놓고 보면 보이는 것:
구글은 Flash Live를 “Flash 계열”로 홍보하지만, 공식 모델 카드는 Gemini 3 Pro를 기반으로 한다고 분명히 밝히고 있습니다. 마케팅 이름과 실제 아키텍처 사이에 차이가 있고, 이 차이가 가격 구조에도 그대로 반영됩니다.
Flash인데 오디오 가격이 생각보다 높습니다
Gemini API 공식 가격표를 직접 확인하면 흥미로운 숫자가 보입니다. Gemini 3.1 Flash-Lite의 텍스트 입력은 100만 토큰당 $0.25인데, Gemini 3.1 Flash Live의 오디오 출력은 같은 단위 기준 $12.00입니다. (출처: ai.google.dev/gemini-api/docs/pricing, 2026.04.02 기준)
이게 단순 비교라 오해의 소지가 있으니 같은 선에서 정리해 보겠습니다.
| 모델 | 오디오 입력 ($/MTok) | 오디오 출력 ($/MTok) | 텍스트 입력 ($/MTok) |
|---|---|---|---|
| Gemini 3.1 Flash Live | $3.00 | $12.00 | $0.75 |
| Gemini 3.1 Flash-Lite | $0.50 | $1.50 | $0.25 |
| Gemini 3.1 Flash | $1.00 | $3.00 | $0.50 |
출처: ai.google.dev/gemini-api/docs/pricing (2026.04.02 기준)
Flash Live의 오디오 출력 가격이 일반 Flash보다 4배 높습니다. 이름은 Flash이지만, 실시간 오디오 스트리밍에는 Pro급 연산이 들어가기 때문입니다. 오디오 1분을 대략 900토큰으로 환산하면 출력 분당 약 $0.0108, 즉 1분에 약 16원 수준입니다. 하루 1시간 사용 시 월 약 $19.4가 됩니다.
💡 Flash 계열이라 당연히 저렴할 거라 생각했다면, 오디오 출력 가격만큼은 다시 계산이 필요합니다.
Flash-Lite 대비 오디오 출력 기준 8배 차이가 납니다. 텍스트 작업용 Flash와 실시간 음성용 Flash Live는 가격 구조 자체가 다른 제품군입니다.
세션 15분 제한 — 조건에 따라 2분도 됩니다
Gemini Live API 공식 세션 관리 문서에 숫자가 명확하게 적혀 있습니다. 압축 기능 없이 오디오만 사용할 경우 세션 상한은 15분이고, 오디오+비디오를 동시에 쓰면 2분입니다. (출처: ai.google.dev/gemini-api/docs/live-api/session-management, 2026.04.02 기준)
연결 자체의 수명은 약 10분으로 더 짧습니다. 세션이 15분이어도 WebSocket 연결이 10분마다 서버 측에서 재설정되므로, 재연결 처리를 따로 구현하지 않으면 대화가 끊깁니다. “실시간 음성 AI”라는 이름만 보고 장시간 통화처럼 쓰려 했다면, 이 부분을 먼저 확인해야 합니다.
⚠️ 세션 제한 정리
- 오디오 전용 세션: 기본 15분 (압축 없음)
- 오디오+비디오 세션: 기본 2분 (압축 없음)
- WebSocket 연결 수명: 약 10분, 서버가 주도적으로 재설정
- 세션 재개 토큰 유효 시간: 마지막 세션 종료 후 2시간
출처: ai.google.dev/gemini-api/docs/live-api/session-management
단, 컨텍스트 윈도우 압축(Context Window Compression)을 활성화하면 세션을 사실상 무제한으로 연장할 수 있습니다. Python SDK 기준으로 `ContextWindowCompressionConfig`에 `SlidingWindow`를 설정하는 한 줄이면 됩니다. 이 옵션이 없다면 15분짜리 상담 챗봇도 만들기 어렵습니다.
벤치마크 1위가 실제로 의미하는 것
구글이 공식 블로그에서 공개한 벤치마크 수치는 세 가지입니다. Scale AI의 AudioMultiChallenge에서 36.06%로 1위(사고 모드 활성화 기준), ComplexFuncBench Audio에서 이전 모델 대비 90.8% 성능으로 1위입니다. (출처: Google Blog, 2026.03.26)
AudioMultiChallenge는 단순 응답 정확도가 아니라, 대화 도중 끊김·망설임·수정 발화가 있는 상황에서 지시를 끝까지 따르는 능력을 평가합니다. 36.06%가 낮아 보이지만, 이 벤치마크에서 40%를 넘기 어렵다는 점에서 현재 공개된 실시간 음성 모델 중 사실상 최고 수치입니다.
ComplexFuncBench는 여행 예약처럼 여러 함수를 순차적으로 호출해야 하는 시나리오를 오디오 환경에서 평가합니다. 기존 Gemini Live 모델이 이 항목에서 취약하다는 지적이 있었는데, 3.1 버전에서 상당히 개선됐습니다. 복잡한 에이전트 시나리오에서 써볼 만한 근거가 생긴 셈입니다.
| 벤치마크 | 측정 내용 | 3.1 Flash Live 점수 | 순위 |
|---|---|---|---|
| AudioMultiChallenge | 장기 대화 속 지시 이행 | 36.06% | 1위 |
| ComplexFuncBench Audio | 다단계 함수 호출 | 이전 대비 90.8%↑ | 1위 |
출처: Google AI Blog (2026.03.26), Scale AI AudioMultiChallenge Leaderboard
GPT-4o Realtime과 분 단위로 직접 비교했습니다
두 모델을 같은 조건에서 비교하려면 분당 비용으로 환산해야 합니다. 오디오 1분은 약 1,500 토큰(60초 × 25토큰/초)으로 계산됩니다. GPT-4o Realtime의 공식 가격은 오디오 입력 $0.06/분, 오디오 출력 $0.24/분입니다. (출처: OpenAI API Pricing, 2026.04.02 기준)
Gemini 3.1 Flash Live 오디오 입력은 $3.00/MTok이므로 분당 약 $0.0045, 오디오 출력 $12.00/MTok 기준 분당 약 $0.018입니다. 양방향 1분 대화(입력+출력) 기준으로 계산하면 다음과 같습니다.
$$\text{GPT-4o Realtime 1분 비용} = \$0.06 + \$0.24 = \$0.30/\text{분}$$
$$\text{Gemini 3.1 Flash Live 1분 비용} = \$0.0045 + \$0.018 \approx \$0.023/\text{분}$$
직접 계산 결과 요약 (오디오 1분 양방향 기준)
- GPT-4o Realtime: 약 $0.30/분
- Gemini 3.1 Flash Live: 약 $0.023/분
- 차이: 약 13배 Gemini 쪽이 저렴
출처: OpenAI API Pricing, ai.google.dev/gemini-api/docs/pricing (2026.04.02)
가격 면에서는 Gemini 3.1 Flash Live가 압도적입니다. 다만 GPT-4o Realtime은 현재 WebRTC 직접 지원과 더 안정적인 파트너 생태계를 갖추고 있습니다. Gemini Live API는 WebSocket 기반으로, WebRTC 연동은 별도 파트너 라이브러리(LiveKit, StreamSDK 등)를 통해서만 가능합니다. 비용보다 생태계 안정성이 우선이라면, 이 차이를 먼저 고려해야 합니다.
💡 가격만 보면 Gemini가 낫고, 구현 편의성만 보면 아직 차이가 있습니다.
Gemini는 Google Search Grounding을 Live API 안에서 바로 쓸 수 있다는 점이 추가 강점입니다. GPT-4o Realtime에는 없는 기능으로, 검색 결과를 음성 응답에 실시간으로 녹이는 에이전트를 만들 때 유리합니다.
Gemini 3 Pro 기반인데 Flash 가격으로 쓰는 구조
구글 DeepMind 공식 모델 카드에는 “Gemini 3.1 Flash Live는 Gemini 3 Pro 기반”이라고 명시돼 있습니다. (출처: Google DeepMind Model Card, 2026.03.26) 일반적으로 Pro 기반 모델은 Pro 가격으로 제공되는데, 이 모델은 Flash 가격대에 묶여 있습니다.
이 구조가 가능한 이유는 Live API 특성에 있습니다. 실시간 스트리밍에서는 전체 문서를 한 번에 처리하는 일반 API 방식과 달리, 작은 청크(chunk)를 연속적으로 처리합니다. 대용량 추론보다 저지연 처리가 핵심이므로, 동일한 Pro 아키텍처를 써도 실제 연산 집약도가 다릅니다. Google이 아직 이유를 공식 발표한 것은 아니지만, 가격 포지셔닝 전략이 분명히 반영된 것으로 보입니다.
결국 Gemini 3 Pro 아키텍처의 품질을 Flash 가격으로 쓸 수 있는 것입니다. Gemini 3 Pro API 표준 가격이 입력 $2.00/MTok, 출력 $12.00/MTok인 것과 비교하면, Flash Live의 텍스트 입력 $0.75는 상당히 낮게 책정된 수준입니다.
💡 일반 Gemini API와 Live API를 가격 비교하면 예상과 다른 구조가 나옵니다.
오디오 출력 기준으로는 두 가격이 같습니다($12.00/MTok). 그러나 텍스트 입력은 Flash Live($0.75)가 Gemini 3 Pro($2.00) 대비 2.7배 저렴합니다. 아키텍처는 같고 가격 구조는 다른 셈입니다. 장시간 세션보다 짧고 집중적인 음성 인터랙션에 최적화된 요금제입니다.
지금 바로 써볼 수 있는 3가지 경로
Gemini 3.1 Flash Live는 출시 당일부터 세 가지 경로로 접근이 가능합니다. (출처: Google AI Blog, 2026.03.26)
개발자 — Google AI Studio
ai.studio/live 에서 브라우저 기반으로 바로 체험 가능. API 키 없이 프리뷰 접근 허용. Python SDK에서는 gemini-3.1-flash-live 모델 코드 사용.
기업 — Gemini Enterprise for Customer Experience
Verizon, The Home Depot 등이 이미 도입. 고객 상담 자동화 및 인터랙티브 음성 응답 서비스에 적용 가능.
일반 사용자 — Gemini 앱 / Search Live
Gemini Live 앱에서 대화 맥락이 2배 길어졌고, Search Live가 이번 주부터 200개국 이상으로 확대됐습니다. 한국에서도 Search Live 기능이 지원됩니다.
주의할 점은 Google AI Studio 프리뷰 상태이므로 가격과 기능이 변경될 수 있다는 것입니다. 실제로 Gemini API 문서에는 “프리뷰 모델은 안정화 전에 변경될 수 있으며, 더 엄격한 속도 제한이 적용된다”고 명시돼 있습니다. 프로덕션 수준 배포 전에는 속도 제한과 할당량을 먼저 확인하는 것이 좋습니다.
Q&A
마치며
Gemini 3.1 Flash Live를 수치 중심으로 뜯어보면 두 가지 정리가 됩니다. 잘 만든 모델이고, 가격도 경쟁력 있습니다. 동시에 세션 제한·연결 수명·프리뷰 상태라는 실용 조건이 생각보다 까다롭습니다.
GPT-4o Realtime 대비 분당 약 13배 저렴하고, AudioMultiChallenge 벤치마크에서 1위라는 수치는 무시하기 어렵습니다. Flash라는 이름과 달리 Gemini 3 Pro 아키텍처를 쓴다는 것도 플러스입니다. 단, 오디오+비디오 세션 2분 제한, WebSocket만 지원, 프리뷰 모델 특성의 속도 제한은 프로덕션 투입 전 반드시 직접 확인해야 할 변수입니다.
개인적으로는 단기간 고밀도 음성 인터랙션(고객 상담, 튜터링, 에이전트)에는 지금 시점에 써볼 만한 모델이라고 봅니다. 장시간 연속 통화에 쓰려면 세션 재개 로직을 별도로 구현해야 한다는 조건은 붙습니다.
📌 본 포스팅 참고 자료
- ① Google AI Blog — 제미나이 3.1 플래시 라이브: 더욱 자연스럽고 신뢰할 수 있는 오디오 AI (2026.03.26)
- ② Google DeepMind — Gemini 3.1 Flash Live Model Card (2026.03.26)
- ③ Google for Developers — Gemini API Pricing (2026.04.02 기준)
- ④ Google for Developers — Live API Session Management 공식 문서
- ⑤ OpenAI — OpenAI API Pricing (GPT-realtime-1.5 기준, 2026.04.02)
본 포스팅은 2026년 4월 2일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. Gemini 3.1 Flash Live는 현재 프리뷰 상태이며, 정식 출시 전에 사양이 달라질 수 있습니다.











댓글 남기기