gemini-live-2.5-flash-native-audio
Vertex AI / Google AI Studio
Gemini 2.5 Flash Live API, 이 조건에서만 끊기지 않습니다
실시간 음성 AI를 직접 구현해보려고 Gemini Live API 문서를 처음 펼치면, 생각보다 빨리 막히는 지점이 생깁니다. “연결 10분 제한”이라는 구절인데, 막상 거기서 멈추면 왜 끊기는지, 어떻게 이어붙이는지 한국어로 정리된 자료가 거의 없습니다. 공식 문서와 실제 요금 구조를 같이 놓고 보니 조건이 생각보다 복잡했습니다.
Gemini 2.5 Flash Live API가 뭔가요?
Gemini 2.5 Flash Live API는 구글이 제공하는 실시간 멀티모달 음성 상호작용 API입니다. 텍스트 채팅과는 다르게 WebSocket 연결을 통해 오디오, 이미지, 텍스트를 실시간 스트리밍 방식으로 주고받습니다. 사람과 대화하듯 낮은 지연 시간의 음성 응답을 받을 수 있어서, 고객 지원 에이전트나 AI 튜터 같은 인터랙티브 서비스를 만들 때 주로 씁니다.
모델 ID는 gemini-live-2.5-flash-native-audio이고, 2025년 12월 12일 정식 출시됐습니다. 만료일은 2026년 12월 13일로 공식 문서에 명시되어 있습니다. (출처: Vertex AI 공식 문서)
일반 Gemini API와 가장 다른 점은 “스테이트풀 WebSocket 연결”이라는 구조입니다. 요청-응답 형태가 아니라, 연결을 유지한 채로 지속적으로 데이터를 흘려보내는 방식이라 세션 관리가 훨씬 복잡합니다. 이 부분이 기존 Gemini API를 써본 개발자들도 처음에 헷갈려 하는 지점입니다.
10분이면 끊깁니다 — 공식 문서 확인 결과
⚠️ 많은 블로그가 말하지 않는 부분
실시간 음성 AI를 구현했는데 10분 뒤 갑자기 연결이 끊기는 경우, 거의 대부분 이 제한 때문입니다.
공식 문서에는 연결(connection) 제한과 세션(session) 제한이 분리되어 있습니다. 먼저 연결 측면에서는, WebSocket 연결 하나가 유지될 수 있는 시간이 약 10분입니다. 10분이 지나면 서버에서 GoAway 메시지를 보내고 연결을 종료합니다. (출처: Vertex AI 공식 문서 — Start and manage live sessions, 2026.03 기준)
연결이 끊기면 세션도 같이 종료됩니다. 대화 맥락이 모두 사라진다는 뜻입니다. 10분짜리 서비스라면 이대로 써도 되지만, 그보다 긴 상담이나 교육 서비스를 만들 때는 세션 재개(Session Resumption) 기능을 별도로 구현해야 합니다.
💡 공식 발표문과 실제 연결 흐름을 같이 놓고 보니 이런 차이가 보였습니다
구글은 Live API를 “무제한 세션”으로 홍보하지만, 이는 컨텍스트 압축(Context Window Compression)을 켰을 때의 이야기입니다. 압축 없이 쓰면 오디오 전용 세션은 최대 15분, 오디오+영상 혼합 세션은 최대 2분이 상한선입니다. 연결은 10분마다 재연결이 필요하고요. 즉, “무제한”이 되려면 압축 설정과 세션 재개를 모두 구현해야 합니다. (출처: Google AI for Developers — Live API overview, 최종 업데이트 2026-03-09)
세션 재개는 서버가 SessionResumptionUpdate 메시지로 보내주는 토큰을 저장해두었다가, 재연결 시 그 토큰을 포함해서 새 연결을 열면 됩니다. 단, 재연결 가능 시간이 약 10분으로 제한되어 있어서, 그 안에 재연결하지 않으면 세션 상태가 서버에서 삭제됩니다.
음성+영상 동시 입력은 이 조건에서 막힙니다
Live API의 가장 매력적인 기능 중 하나는 오디오와 영상을 동시에 넣을 수 있다는 점입니다. 예를 들어 카메라로 찍고 있는 화면을 실시간으로 AI에게 보여주면서 음성으로 질문하는 식입니다. 그런데 여기에는 결정적인 제약이 있습니다.
| 세션 유형 | 압축 없을 때 최대 | 압축 적용 시 |
|---|---|---|
| 오디오 전용 | 약 15분 | 이론상 무제한 |
| 오디오 + 영상 | 2분 | 확인 필요 |
| WebSocket 연결 하나 | 약 10분 (재연결 필요) | |
오디오+영상 동시 세션의 최대 시간이 2분이라는 점은, 실시간 화상 통화 기반 AI 어시스턴트 같은 서비스를 기획할 때 치명적인 제약이 됩니다. 2분은 서비스로서 사용하기에 현실적으로 너무 짧습니다. 컨텍스트 압축을 써도 오디오+영상 혼합 모드에서 실질적으로 얼마나 연장되는지는 공식 문서에 명확한 수치가 없어, 이 부분은 확인 필요 사항입니다.
솔직히 말하면, 이 제약은 현재 Gemini Live API를 “영상 포함 실시간 대화형 앱”에 바로 쓰기 어렵게 만드는 가장 큰 요인입니다. 오디오 전용으로 구현하고 영상은 별도 처리하는 구조를 고려하는 게 현실적입니다.
요금 구조가 일반 Gemini API와 다른 이유
💡 텍스트 가격표만 보고 Live API 비용을 계산하면 틀립니다
Live API는 일반 Gemini 2.5 Flash 텍스트 요금과 별도로 과금됩니다. 오디오 입력은 텍스트 입력보다 토큰 단가가 높고, 오디오 출력은 텍스트 출력보다 훨씬 비쌉니다. 이 차이를 모르고 설계하면 예상보다 훨씬 높은 청구서를 받게 됩니다.
| 항목 | 요금 (100만 토큰당) |
|---|---|
| 텍스트 입력 | $0.50 |
| 텍스트 출력 | $2.00 |
| 오디오 입력 | $3.00 |
| 오디오/영상 출력 | $12.00 |
오디오 출력이 100만 토큰당 $12이라는 수치가 의미하는 바는, 1분간의 음성 대화에서 AI가 말하는 오디오 출력 토큰만 계산해도 텍스트 대비 6배 이상 비쌀 수 있다는 점입니다. 일반 Gemini 2.5 Flash 텍스트 출력이 100만 토큰당 $2.50인 것과 비교하면 약 4.8배 차이입니다.
Live API에서 오디오는 초당 25토큰(TPS) 속도로 처리됩니다. (출처: Google AI for Developers 공식 문서) 1분 연속 오디오 입력 시 약 1,500토큰이 발생한다는 뜻입니다. 이를 시간당으로 환산하면 90,000토큰이며, 비용은 약 $0.27 수준이 됩니다. 짧게 쓸 땐 괜찮지만, 상시 실행 서비스라면 누적 비용 시뮬레이션을 먼저 해봐야 합니다.
서울 리전이 없습니다 — 한국 서비스에 영향 있나요?
Gemini 2.5 Flash Live API의 정식 모델(gemini-live-2.5-flash-native-audio)이 지원하는 리전을 공식 문서에서 확인하면, 미국(us-central1, us-east1 등)과 유럽(europe-west1 등) 리전만 나열되어 있습니다. 아시아 리전, 특히 한국에서 가장 가까운 서울(asia-northeast3) 리전은 포함되지 않습니다. (출처: Vertex AI 공식 문서, 2026.03 기준)
⚠️ 한국 서비스 기획자라면 이 부분이 걸립니다
Live API는 실시간 음성 스트리밍이라 지연 시간(Latency)에 매우 민감합니다. 서울에서 us-central1(아이오와)까지의 왕복 지연 시간은 보통 150~200ms 수준입니다. 음성 대화에서 이 수준의 지연은 사용자가 체감할 수 있는 수준이라, 한국 사용자를 대상으로 하는 상용 서비스라면 체감 품질에 영향이 생깁니다.
프리뷰 모델(gemini-live-2.5-flash-preview-native-audio-09-2025)은 us-central1 단일 리전만 지원하고 있어 상황이 더 제한적입니다. Google AI Studio(Gemini Developer API)에서는 프리뷰 버전을 사용할 수 있지만, 이쪽도 공식적으로 한국 리전을 별도 지원하지 않습니다.
개인 프로젝트나 프로토타이핑 단계라면 US 리전을 써도 큰 문제가 없지만, 한국 사용자 대상 상용 서비스라면 서울 리전 지원 추가를 기다리거나 지연 허용 범위를 충분히 테스트한 뒤 결정하는 게 현실적입니다.
OpenAI Realtime API와 비교하면 어떻게 다를까요?
실시간 음성 AI API 시장에서 가장 직접적인 경쟁 상대는 OpenAI Realtime API입니다. 두 서비스 모두 WebSocket 기반 실시간 음성 스트리밍을 지원하지만, 요금 구조와 제약 조건에서 꽤 차이가 납니다.
| 항목 | Gemini 2.5 Flash Live | OpenAI Realtime API |
|---|---|---|
| 분당 요금(추정) | 약 $0.27 (오디오 입력 기준) | $0.04/분 (공식 가격) |
| 연결 제한 | 10분 (재연결 가능) | 별도 명시 없음 |
| 영상 입력 | 지원 (단, 2분 제한) | 미지원 |
| 한국 리전 | 미지원 | 미지원 |
| 지원 언어 수 | 70개 | 다수 지원 |
OpenAI Realtime API가 분당 $0.04로 가격을 인하했다는 점은 주목할 만합니다. (출처: OpenAI 공식 발표) 이 수치와 비교하면, Gemini Live API의 오디오 입력 단가($3/100만 토큰)는 시간당 오디오 사용량에 따라 역전이 가능합니다. 짧고 간헐적인 요청 위주라면 Gemini가 유리하고, 연속적인 장시간 음성 통화에서는 OpenAI 쪽이 단가가 더 예측 가능할 수 있습니다.
영상 입력 지원 여부에서는 Gemini Live가 유일한 선택지입니다. 다만 2분이라는 세션 제한이 있기 때문에, 실질적인 영상 기반 실시간 서비스로 쓰려면 추가 구현이 필수입니다. 이 부분이 현재 두 서비스 중 어느 것도 “영상 기반 장시간 AI 대화”를 완전하게 처리하지 못한다는 현실을 보여줍니다.
자주 묻는 질문 Q&A
마치며
Gemini 2.5 Flash Live API는 실시간 음성 AI 앱을 만들 수 있는 현재 가장 접근하기 쉬운 멀티모달 실시간 API 중 하나입니다. 70개 언어 지원, 영상 입력 처리, Google 검색 연동 같은 기능은 분명히 매력적입니다.
그런데 10분 연결 제한, 오디오+영상 동시 세션 2분 상한, 서울 리전 미지원, 일반 텍스트 API 대비 높은 오디오 요금이라는 네 가지 조건을 먼저 확인하지 않으면, 만들고 나서 예상 못한 장벽에 부딪히게 됩니다. 적어도 이 네 가지는 프로토타입을 만들기 전에 체크리스트로 넣어두는 게 맞습니다.
개인적으로는, 지금 단계에서 Gemini Live API는 “오디오 전용 + 세션 재개 구현 가능한 팀”에게는 충분히 쓸 만한 선택입니다. 반면 영상 기반 장시간 대화를 핵심으로 하는 서비스라면 아직 한두 분기 더 기다리거나 다른 방법을 병행하는 쪽이 현실적입니다.
본 포스팅 참고 자료
※ 본 포스팅은 2026년 03월 19일 공식 문서 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있습니다. 최신 정보는 반드시 Google Cloud 및 Google AI for Developers 공식 문서에서 확인하시기 바랍니다. 본문 내 요금 추정치는 공식 단가를 기반으로 한 역산 수치이며, 실제 청구 금액은 사용 패턴과 리전에 따라 달라질 수 있습니다.

댓글 남기기