Gemini 2.5 Flash Live API, 이 조건에서만 끊기지 않습니다

Published on

in

Gemini 2.5 Flash Live API, 이 조건에서만 끊기지 않습니다

2026.03.19 기준
gemini-live-2.5-flash-native-audio
Vertex AI / Google AI Studio

Gemini 2.5 Flash Live API, 이 조건에서만 끊기지 않습니다

실시간 음성 AI를 직접 구현해보려고 Gemini Live API 문서를 처음 펼치면, 생각보다 빨리 막히는 지점이 생깁니다. “연결 10분 제한”이라는 구절인데, 막상 거기서 멈추면 왜 끊기는지, 어떻게 이어붙이는지 한국어로 정리된 자료가 거의 없습니다. 공식 문서와 실제 요금 구조를 같이 놓고 보니 조건이 생각보다 복잡했습니다.

10분
연결 1회 최대 시간
2분
음성+영상 동시 세션 한도
70개
지원 언어 수 (공식)
$3
오디오 출력 /100만 토큰

Gemini 2.5 Flash Live API가 뭔가요?

Gemini 2.5 Flash Live API는 구글이 제공하는 실시간 멀티모달 음성 상호작용 API입니다. 텍스트 채팅과는 다르게 WebSocket 연결을 통해 오디오, 이미지, 텍스트를 실시간 스트리밍 방식으로 주고받습니다. 사람과 대화하듯 낮은 지연 시간의 음성 응답을 받을 수 있어서, 고객 지원 에이전트나 AI 튜터 같은 인터랙티브 서비스를 만들 때 주로 씁니다.

모델 ID는 gemini-live-2.5-flash-native-audio이고, 2025년 12월 12일 정식 출시됐습니다. 만료일은 2026년 12월 13일로 공식 문서에 명시되어 있습니다. (출처: Vertex AI 공식 문서)

일반 Gemini API와 가장 다른 점은 “스테이트풀 WebSocket 연결”이라는 구조입니다. 요청-응답 형태가 아니라, 연결을 유지한 채로 지속적으로 데이터를 흘려보내는 방식이라 세션 관리가 훨씬 복잡합니다. 이 부분이 기존 Gemini API를 써본 개발자들도 처음에 헷갈려 하는 지점입니다.

▲ 목차로 돌아가기

10분이면 끊깁니다 — 공식 문서 확인 결과

⚠️ 많은 블로그가 말하지 않는 부분

실시간 음성 AI를 구현했는데 10분 뒤 갑자기 연결이 끊기는 경우, 거의 대부분 이 제한 때문입니다.

공식 문서에는 연결(connection) 제한과 세션(session) 제한이 분리되어 있습니다. 먼저 연결 측면에서는, WebSocket 연결 하나가 유지될 수 있는 시간이 약 10분입니다. 10분이 지나면 서버에서 GoAway 메시지를 보내고 연결을 종료합니다. (출처: Vertex AI 공식 문서 — Start and manage live sessions, 2026.03 기준)

연결이 끊기면 세션도 같이 종료됩니다. 대화 맥락이 모두 사라진다는 뜻입니다. 10분짜리 서비스라면 이대로 써도 되지만, 그보다 긴 상담이나 교육 서비스를 만들 때는 세션 재개(Session Resumption) 기능을 별도로 구현해야 합니다.

💡 공식 발표문과 실제 연결 흐름을 같이 놓고 보니 이런 차이가 보였습니다

구글은 Live API를 “무제한 세션”으로 홍보하지만, 이는 컨텍스트 압축(Context Window Compression)을 켰을 때의 이야기입니다. 압축 없이 쓰면 오디오 전용 세션은 최대 15분, 오디오+영상 혼합 세션은 최대 2분이 상한선입니다. 연결은 10분마다 재연결이 필요하고요. 즉, “무제한”이 되려면 압축 설정과 세션 재개를 모두 구현해야 합니다. (출처: Google AI for Developers — Live API overview, 최종 업데이트 2026-03-09)

세션 재개는 서버가 SessionResumptionUpdate 메시지로 보내주는 토큰을 저장해두었다가, 재연결 시 그 토큰을 포함해서 새 연결을 열면 됩니다. 단, 재연결 가능 시간이 약 10분으로 제한되어 있어서, 그 안에 재연결하지 않으면 세션 상태가 서버에서 삭제됩니다.

▲ 목차로 돌아가기

음성+영상 동시 입력은 이 조건에서 막힙니다

Live API의 가장 매력적인 기능 중 하나는 오디오와 영상을 동시에 넣을 수 있다는 점입니다. 예를 들어 카메라로 찍고 있는 화면을 실시간으로 AI에게 보여주면서 음성으로 질문하는 식입니다. 그런데 여기에는 결정적인 제약이 있습니다.

▼ Live API 세션 종류별 제한 비교 (출처: Vertex AI 공식 문서, 2026.03 기준)
세션 유형 압축 없을 때 최대 압축 적용 시
오디오 전용 약 15분 이론상 무제한
오디오 + 영상 2분 확인 필요
WebSocket 연결 하나 약 10분 (재연결 필요)

오디오+영상 동시 세션의 최대 시간이 2분이라는 점은, 실시간 화상 통화 기반 AI 어시스턴트 같은 서비스를 기획할 때 치명적인 제약이 됩니다. 2분은 서비스로서 사용하기에 현실적으로 너무 짧습니다. 컨텍스트 압축을 써도 오디오+영상 혼합 모드에서 실질적으로 얼마나 연장되는지는 공식 문서에 명확한 수치가 없어, 이 부분은 확인 필요 사항입니다.

솔직히 말하면, 이 제약은 현재 Gemini Live API를 “영상 포함 실시간 대화형 앱”에 바로 쓰기 어렵게 만드는 가장 큰 요인입니다. 오디오 전용으로 구현하고 영상은 별도 처리하는 구조를 고려하는 게 현실적입니다.

▲ 목차로 돌아가기

요금 구조가 일반 Gemini API와 다른 이유

💡 텍스트 가격표만 보고 Live API 비용을 계산하면 틀립니다

Live API는 일반 Gemini 2.5 Flash 텍스트 요금과 별도로 과금됩니다. 오디오 입력은 텍스트 입력보다 토큰 단가가 높고, 오디오 출력은 텍스트 출력보다 훨씬 비쌉니다. 이 차이를 모르고 설계하면 예상보다 훨씬 높은 청구서를 받게 됩니다.

▼ Gemini 2.5 Flash Live API 요금 (Vertex AI 기준, 출처: Google Cloud Pricing 페이지, 2026.03 기준)
항목 요금 (100만 토큰당)
텍스트 입력 $0.50
텍스트 출력 $2.00
오디오 입력 $3.00
오디오/영상 출력 $12.00

오디오 출력이 100만 토큰당 $12이라는 수치가 의미하는 바는, 1분간의 음성 대화에서 AI가 말하는 오디오 출력 토큰만 계산해도 텍스트 대비 6배 이상 비쌀 수 있다는 점입니다. 일반 Gemini 2.5 Flash 텍스트 출력이 100만 토큰당 $2.50인 것과 비교하면 약 4.8배 차이입니다.

Live API에서 오디오는 초당 25토큰(TPS) 속도로 처리됩니다. (출처: Google AI for Developers 공식 문서) 1분 연속 오디오 입력 시 약 1,500토큰이 발생한다는 뜻입니다. 이를 시간당으로 환산하면 90,000토큰이며, 비용은 약 $0.27 수준이 됩니다. 짧게 쓸 땐 괜찮지만, 상시 실행 서비스라면 누적 비용 시뮬레이션을 먼저 해봐야 합니다.

▲ 목차로 돌아가기

서울 리전이 없습니다 — 한국 서비스에 영향 있나요?

Gemini 2.5 Flash Live API의 정식 모델(gemini-live-2.5-flash-native-audio)이 지원하는 리전을 공식 문서에서 확인하면, 미국(us-central1, us-east1 등)과 유럽(europe-west1 등) 리전만 나열되어 있습니다. 아시아 리전, 특히 한국에서 가장 가까운 서울(asia-northeast3) 리전은 포함되지 않습니다. (출처: Vertex AI 공식 문서, 2026.03 기준)

⚠️ 한국 서비스 기획자라면 이 부분이 걸립니다

Live API는 실시간 음성 스트리밍이라 지연 시간(Latency)에 매우 민감합니다. 서울에서 us-central1(아이오와)까지의 왕복 지연 시간은 보통 150~200ms 수준입니다. 음성 대화에서 이 수준의 지연은 사용자가 체감할 수 있는 수준이라, 한국 사용자를 대상으로 하는 상용 서비스라면 체감 품질에 영향이 생깁니다.

프리뷰 모델(gemini-live-2.5-flash-preview-native-audio-09-2025)은 us-central1 단일 리전만 지원하고 있어 상황이 더 제한적입니다. Google AI Studio(Gemini Developer API)에서는 프리뷰 버전을 사용할 수 있지만, 이쪽도 공식적으로 한국 리전을 별도 지원하지 않습니다.

개인 프로젝트나 프로토타이핑 단계라면 US 리전을 써도 큰 문제가 없지만, 한국 사용자 대상 상용 서비스라면 서울 리전 지원 추가를 기다리거나 지연 허용 범위를 충분히 테스트한 뒤 결정하는 게 현실적입니다.

▲ 목차로 돌아가기

OpenAI Realtime API와 비교하면 어떻게 다를까요?

실시간 음성 AI API 시장에서 가장 직접적인 경쟁 상대는 OpenAI Realtime API입니다. 두 서비스 모두 WebSocket 기반 실시간 음성 스트리밍을 지원하지만, 요금 구조와 제약 조건에서 꽤 차이가 납니다.

▼ Gemini 2.5 Flash Live API vs OpenAI Realtime API 비교
항목 Gemini 2.5 Flash Live OpenAI Realtime API
분당 요금(추정) 약 $0.27 (오디오 입력 기준) $0.04/분 (공식 가격)
연결 제한 10분 (재연결 가능) 별도 명시 없음
영상 입력 지원 (단, 2분 제한) 미지원
한국 리전 미지원 미지원
지원 언어 수 70개 다수 지원

OpenAI Realtime API가 분당 $0.04로 가격을 인하했다는 점은 주목할 만합니다. (출처: OpenAI 공식 발표) 이 수치와 비교하면, Gemini Live API의 오디오 입력 단가($3/100만 토큰)는 시간당 오디오 사용량에 따라 역전이 가능합니다. 짧고 간헐적인 요청 위주라면 Gemini가 유리하고, 연속적인 장시간 음성 통화에서는 OpenAI 쪽이 단가가 더 예측 가능할 수 있습니다.

영상 입력 지원 여부에서는 Gemini Live가 유일한 선택지입니다. 다만 2분이라는 세션 제한이 있기 때문에, 실질적인 영상 기반 실시간 서비스로 쓰려면 추가 구현이 필수입니다. 이 부분이 현재 두 서비스 중 어느 것도 “영상 기반 장시간 AI 대화”를 완전하게 처리하지 못한다는 현실을 보여줍니다.

▲ 목차로 돌아가기

자주 묻는 질문 Q&A

Q. Gemini 2.5 Flash Live API는 무료로 쓸 수 있나요?

Google AI Studio(Gemini Developer API)에서 무료 티어로 제한적으로 체험할 수 있습니다. 다만 Google AI for Developers의 무료 사용 허용 범위는 실험·프로토타이핑 수준이고, 상용 트래픽이나 연속 호출에서는 유료 Vertex AI 계정이 필요합니다. 무료 티어의 RPM(분당 요청 수) 한도를 초과하면 오류가 발생하니 사전 확인이 필요합니다.

Q. 10분 제한을 해결하는 가장 간단한 방법은 뭔가요?

공식 문서에서 권장하는 방법은 세션 재개(Session Resumption) 기능을 구현하는 것입니다. 서버에서 오는 GoAway 메시지를 감지해서, 연결이 끊기기 전 60초 안에 새 WebSocket 연결을 열면서 기존 세션 토큰을 넘기는 방식입니다. 이렇게 하면 대화 맥락이 유지된 채로 세션이 이어집니다. 단, 재연결 가능 시간이 약 10분이기 때문에 그 안에 재연결해야 합니다.

Q. 한국어 음성 인식과 응답 품질은 어떤가요?

Live API는 공식적으로 70개 언어를 지원하며 한국어도 포함됩니다. (출처: Google AI for Developers 공식 문서) 다만 음성 인식 정확도나 자연스러운 응답 품질은 환경과 문장 구성에 따라 달라질 수 있습니다. 실제 서비스 적용 전에 한국어 환경에서 충분한 테스트가 필요하며, 특히 서울 리전 미지원으로 인한 지연 시간이 한국어 체감 품질에 영향을 줄 수 있습니다.

Q. 동시 세션 수 제한은 얼마인가요?

Vertex AI 종량제(Pay-as-you-go) 계정에서는 프로젝트당 최대 1,000개 동시 세션을 지원합니다. 이 수치는 프로비저닝 처리량(Provisioned Throughput) 계획을 사용하는 엔터프라이즈 고객에는 적용되지 않습니다. (출처: Vertex AI 공식 문서) 스타트업이나 중소규모 서비스라면 1,000개 동시 세션 제한이 실질적 상한선이 되는 상황은 드물지만, 빠르게 성장하는 서비스라면 미리 확인해두는 게 좋습니다.

Q. Gemini Live API로 실제 전화 통화 서비스를 만들 수 있나요?

기술적으로는 가능하지만, 현재 상태에서 바로 상용화하기엔 몇 가지 조건이 걸립니다. 10분 연결 제한을 세션 재개로 해결해야 하고, 한국 사용자 대상이라면 서울 리전 미지원에 따른 지연을 감수하거나 허용 가능한 지연 범위 내인지 테스트해야 합니다. 또한 오디오 출력 비용($12/100만 토큰)이 누적 트래픽에 따라 상당히 올라갈 수 있어서 수익 모델에 따른 비용 시뮬레이션이 먼저입니다.

▲ 목차로 돌아가기

마치며

Gemini 2.5 Flash Live API는 실시간 음성 AI 앱을 만들 수 있는 현재 가장 접근하기 쉬운 멀티모달 실시간 API 중 하나입니다. 70개 언어 지원, 영상 입력 처리, Google 검색 연동 같은 기능은 분명히 매력적입니다.

그런데 10분 연결 제한, 오디오+영상 동시 세션 2분 상한, 서울 리전 미지원, 일반 텍스트 API 대비 높은 오디오 요금이라는 네 가지 조건을 먼저 확인하지 않으면, 만들고 나서 예상 못한 장벽에 부딪히게 됩니다. 적어도 이 네 가지는 프로토타입을 만들기 전에 체크리스트로 넣어두는 게 맞습니다.

개인적으로는, 지금 단계에서 Gemini Live API는 “오디오 전용 + 세션 재개 구현 가능한 팀”에게는 충분히 쓸 만한 선택입니다. 반면 영상 기반 장시간 대화를 핵심으로 하는 서비스라면 아직 한두 분기 더 기다리거나 다른 방법을 병행하는 쪽이 현실적입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Google AI for Developers — Gemini Live API overview (최종 업데이트 2026-03-09)
  2. Vertex AI 공식 문서 — Start and manage live sessions
  3. Google Cloud Vertex AI Generative AI 요금 페이지 (2026.03 기준)
  4. Vertex AI 공식 문서 — Gemini Live 2.5 Flash 모델 사양
  5. Google AI Studio (실습 환경)

※ 본 포스팅은 2026년 03월 19일 공식 문서 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있습니다. 최신 정보는 반드시 Google Cloud 및 Google AI for Developers 공식 문서에서 확인하시기 바랍니다. 본문 내 요금 추정치는 공식 단가를 기반으로 한 역산 수치이며, 실제 청구 금액은 사용 패턴과 리전에 따라 달라질 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기