Gemini 3.1 Flash Live, 15분이 넘으면 끊깁니다

Published on

in

Gemini 3.1 Flash Live, 15분이 넘으면 끊깁니다

2026.03.26 기준 / gemini-3.1-flash-live-preview

Gemini 3.1 Flash Live, 15분이 넘으면 끊깁니다

3월 26일 공개된 구글의 실시간 음성 AI 모델. 성능은 올랐지만, 공식 문서에 조용히 박혀 있는 제한 조건들이 있습니다.

ComplexFuncBench Audio 90.8%
오디오 세션 최대 15분
70개 언어 지원

결론부터 — 어떤 모델이고 뭐가 달라졌나

Gemini 3.1 Flash Live는 구글이 2026년 3월 26일 공개한 실시간 음성 AI 모델입니다. 공식 모델 ID는 gemini-3.1-flash-live-preview이고, Gemini Live API 위에서 동작하는 스트리밍 전용 모델입니다.

이전 모델인 Gemini 2.5 Flash Native Audio와 비교했을 때 눈에 띄는 변화가 두 가지 있습니다. 다단계 함수 호출 능력을 평가하는 ComplexFuncBench Audio 벤치마크에서 90.8%를 기록하며 1위를 차지했고 (출처: Google 공식 블로그, 2026.03.26), 출력 토큰 한도가 8,192에서 65,536으로 8배 늘었습니다 (출처: Google AI Dev 공식 문서). 8배 늘었다는 건, 한 번의 음성 응답에서 훨씬 긴 문장을 자연스럽게 뽑아낼 수 있다는 뜻입니다.

그런데 이 모델이 진짜 좋아졌는지 판단하려면 성능 수치보다 제약 조건을 먼저 봐야 합니다. 공식 문서를 뒤지다 보면, 대부분의 소개 글에 없는 내용들이 나옵니다.

💡 공식 발표문과 실제 API 구조를 같이 놓고 보니 이런 차이가 보였습니다: 제목에 나온 성능 향상은 사실이지만, 세션 관리 방식이 근본적으로 바뀌어서 기존 2.5 구조를 그대로 쓰면 문제가 생깁니다.

▲ 목차로 돌아가기

오디오 세션 15분 한도 — 공식 문서에 직접 나옵니다

대부분의 소개 글에서 빠져 있는 내용인데, Gemini Live API의 공식 Capabilities 문서에는 세션 한도가 명확하게 적혀 있습니다.

세션 유형 최대 지속 시간
오디오 전용 세션 15분
오디오 + 비디오 세션 2분

(출처: Google AI Dev Live API Capabilities 공식 문서, 2026.03.26 확인)

오디오 전용이어도 15분이 한도입니다. 이 숫자가 왜 중요하냐면, 고객 상담 봇이나 영어 회화 서비스처럼 긴 대화를 전제로 설계하려는 경우, 세션 관리 로직을 처음부터 다르게 짜야 한다는 뜻이기 때문입니다.

15분 이상 대화를 지속하려면 구글이 공식 문서에서 “Session Management & Resumption”이라고 부르는 별도 패턴을 구현해야 합니다. 단순히 세션을 재연결하는 것과 달리, 이전 대화 맥락을 어떻게 넘겨줄지 설계가 필요합니다. 이 부분은 공식 문서에서 별도 이유를 밝히지 않았습니다만, 인프라 리소스 관리와 관련된 기술적 한계로 보입니다.

📌 오디오 + 비디오를 동시에 쓰면 한도가 2분으로 내려갑니다.

이건 카메라를 켜 놓고 음성으로 대화하는 시나리오에서 치명적인 제약입니다. 짧은 데모 수준에서는 괜찮지만, 실제 서비스로 쓰기에는 설계가 완전히 달라져야 합니다.

▲ 목차로 돌아가기

분당 요금으로 계산해 봤습니다 — 10분 대화가 얼마냐면

Gemini API 공식 가격 문서(출처: ai.google.dev/gemini-api/docs/pricing, 2026.03.26 기준)에는 Gemini 3.1 Flash Live의 요금이 토큰 단위와 분 단위 두 가지로 함께 나옵니다. 분 단위 요금이 있다는 게 특이한데, 음성 서비스 특성상 실제 운영 비용을 토큰으로 추정하기 어려운 점을 반영한 것으로 보입니다.

항목 유료 요금 (Paid Tier)
텍스트 입력 $0.75 / 1M 토큰
오디오 입력 $3.00 / 1M 토큰 또는 $0.005/분
이미지/비디오 입력 $1.00 / 1M 토큰 또는 $0.002/분
텍스트 출력 $4.50 / 1M 토큰
오디오 출력 $12.00 / 1M 토큰 또는 $0.018/분

분 단위 요금을 그대로 더해 보면, 오디오가 양방향으로 계속 흐르는 세션에서 1분당 비용은 다음과 같습니다.

💡 10분 음성 대화 비용 직접 계산

오디오 입력: $0.005/분 × 10분 = $0.05

오디오 출력: $0.018/분 × 10분 = $0.18

오디오 합계: $0.23 (약 330원)

* 위 계산은 공식 가격 문서의 분당 요금을 그대로 곱한 추정치입니다. Google Search 그라운딩, 이미지/비디오 입력, 앱 인프라 비용은 별도입니다.

10분 대화에 330원 정도. 얼핏 싸 보이지만 여기에 Google Search 그라운딩을 더하면 달라집니다. 공식 가격 문서에 따르면, 월 5,000회 무료 쿼리를 다 쓴 이후 검색 1회당 $0.014가 붙습니다. 한 번의 대화에서 AI가 5회 검색을 한다고 가정하면 1회 통화당 약 $0.07이 추가됩니다. 그라운딩을 적극 쓰는 서비스라면 이 부분이 전체 비용에서 꽤 큰 비중을 차지할 수 있습니다.

▲ 목차로 돌아가기

2.5에서 사라진 기능 3가지 — 업그레이드인데 못 쓰는 게 생깁니다

Gemini 3.1 Flash Live로 넘어가면 당연히 2.5보다 좋아질 거라고 생각하게 됩니다. 벤치마크도 올랐고 출력 토큰도 늘었으니까요. 그런데 Google 공식 Migration 가이드를 보면 2.5에서만 되는 기능이 아직 세 가지 남아 있습니다. (출처: Google AI Dev Live API 공식 Capabilities 문서, 2026.03.26 확인)

기능 Gemini 3.1 Gemini 2.5
비동기 함수 호출 (Async Tool Use) ❌ 미지원 ✅ 지원
선제적 오디오 (Proactive Audio) ❌ 미지원 ✅ 지원
감정 반응 대화 (Affective Dialog) ❌ 미지원 ✅ 지원

이 중에서 실무적으로 가장 아픈 건 비동기 함수 호출 미지원입니다. 2.5에서는 AI가 말을 이어가면서 백그라운드에서 동시에 외부 API를 호출할 수 있었습니다. 3.1에서는 함수 호출이 동기 방식만 됩니다. AI가 도구 응답을 받을 때까지 아무 말도 못 하고 기다립니다. 빠른 응답이 생명인 음성 UX에서 이 차이는 꽤 크게 느껴집니다.

💡 Gemini 2.5와 3.1을 나란히 놓고 보면, 단순히 버전이 올라간 게 아닙니다. 2.5로 만든 기능 중 일부는 3.1로 가면 동작 방식 자체가 달라집니다. 기존 프로덕션 스택을 3.1로 올리기 전에 이 세 기능에 의존하고 있는지 먼저 체크해야 합니다.

▲ 목차로 돌아가기

비디오 스트리밍의 과금 함정 — 기본값이 달라졌습니다

Gemini 3.1 Flash Live에서 가장 조용하게, 그리고 실제로 비용에 영향이 큰 변화가 하나 있습니다. 바로 Turn Coverage 기본값입니다.

Gemini 2.5에서 기본값은 TURN_INCLUDES_ONLY_ACTIVITY였습니다. 즉, 음성 활동이 감지될 때만 처리했습니다. 그런데 3.1에서 기본값이 TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO로 바뀌었습니다. 비디오 스트림을 켜 놓으면, 말이 없어도 비디오 프레임이 계속 처리됩니다.

⚠️ 실제 상황에서 어떻게 생기냐면

2.5 기반으로 만든 앱이 사용자 화면을 보여주며 음성으로 대화하는 구조였다면, 3.1에서 그대로 올리면 비디오 프레임이 계속 과금됩니다. 음성이 목적이고 카메라는 간헐적으로만 필요한 경우라면, 비디오 스트림을 조건부로 전송하도록 구조를 바꿔야 합니다. (출처: Google AI Dev Live API 공식 Migration 문서, 2026.03.26)

공식 문서에는 “비디오를 조심해서 스트리밍하라(stream video cautiously)”라는 표현이 들어가 있습니다. 기능이 없어진 게 아니라, 쓰는 방식에 따라 요금이 예상보다 높게 나올 수 있다는 경고입니다. 처음 설계할 때 비디오를 항상 켜는 구조보다, 필요할 때만 보내는 구조가 비용 관리에 훨씬 유리합니다.

▲ 목차로 돌아가기

지금 시작하기에 맞는 구조와 맞지 않는 구조

공식 문서를 정리하면, Gemini 3.1 Flash Live가 잘 맞는 상황과 아직 무리인 상황이 꽤 명확하게 나뉩니다. (출처: Google AI Dev 공식 문서, 2026.03.26)

✅ 지금 시작해도 좋은 상황

처음부터 새로 음성 에이전트를 만드는 경우라면 3.1을 기준으로 설계하는 게 맞습니다. 2.5보다 출력 토큰이 8배 넓고, 툴 호출도 지원하며, 다국어 70개 언어를 기본으로 씁니다. 빠른 레이턴시와 자연스러운 대화 흐름에서 전작보다 개선됐다는 게 공식 입장입니다.

브라우저에서 직접 연결이 필요하다면, 백엔드에서 임시 토큰(Ephemeral Token)을 발급해 클라이언트에 넘기는 방식을 씁니다. API 키를 프론트에 노출하지 않아도 되는 구조로, 공식 문서가 이 방식을 권장합니다.

❌ 아직 3.1로 가기 어려운 상황

기존 2.5 기반 서비스에서 비동기 툴 호출을 활용하고 있다면, 3.1로 올리면 UX가 나빠집니다. AI가 말하면서 동시에 외부 데이터를 불러오던 흐름이 끊깁니다. 또 실시간 음성 합성 자체가 목적이고 대화 맥락이 필요 없는 경우라면, Live API보다 구글의 TTS 모델이 더 단순하고 비쌉니다. Live API는 대화 지능이 필요할 때 쓰는 구조입니다.

💡 브라우저에서 실시간 연결을 쓰려면, 임시 토큰 방식이 유일하게 안전한 방법입니다. 공식 문서에서도 장기 API 키를 클라이언트에 노출하지 말 것을 명시하고 있습니다. 임시 토큰은 기본 발급 후 1분 안에 세션을 열어야 하고, 연결 유지 시간은 30분입니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. Gemini 3.1 Flash Live는 지금 무료로 써볼 수 있나요?

네. Google AI Studio의 Free Tier에서 오디오 입출력 모두 무료로 제공합니다. 단, 무료 구간에서는 프리뷰 모델 특성상 레이트 리밋이 더 엄격하게 적용됩니다. 사용량이 일정 이상 되면 유료 전환이 필요합니다. (출처: Google AI Dev Pricing 공식 문서, 2026.03.26)

Q2. 한국어 대화가 잘 됩니까?

공식 문서에 따르면 70개 언어 지원을 기본으로 내장하고 있고, 구글 블로그 공식 발표에서도 한국을 포함한 200개 이상의 국가에서 서치 라이브 글로벌 확대를 지원한다고 밝혔습니다. 실사용 한국어 품질에 대한 독립적인 공식 벤치마크는 아직 공개되지 않았습니다. (출처: Google 공식 블로그, 2026.03.26)

Q3. 2.5에서 3.1로 마이그레이션하면 코드가 얼마나 바뀌나요?

공식 Migration 문서 기준으로 최소 4가지를 바꿔야 합니다. ① thinkingBudget → thinkingLevel 파라미터 변경 ② 서버 이벤트에서 여러 Part를 동시에 처리하도록 파싱 수정 ③ 대화 중 업데이트는 send_client_content 대신 send_realtime_input 사용 ④ 비동기 함수 호출을 쓰던 부분은 동기 방식으로 재설계. 2.5 기능에 얼마나 의존했는지에 따라 작업량이 달라집니다.

Q4. AI가 생성한 음성에 워터마크가 들어가나요?

네. 구글 공식 블로그 발표에 따르면 Gemini 3.1 Flash Live가 생성하는 모든 오디오에 SynthID 워터마크가 적용됩니다. 이 워터마크는 사람 귀에는 들리지 않지만 오디오 출력물에 직접 내장되어 AI 생성 콘텐츠 식별에 활용됩니다. 소비자 대상 음성 서비스를 만들 때 이 부분을 사전에 인지하고 설계해야 합니다. (출처: Google 공식 블로그, 2026.03.26)

Q5. GPT-4o Realtime과 비교했을 때 어떤가요?

ComplexFuncBench Audio 기준 Gemini 3.1 Flash Live가 90.8%로 선두입니다. 가격 측면에서는 Gemini 3.1의 오디오 출력이 분당 $0.018인 반면, GPT-4o Realtime은 더 높은 편입니다. 다만 두 모델의 실제 음질, 레이턴시 감각, 한국어 자연스러움에 대한 독립적인 비교 벤치마크는 이 글 작성 시점(2026.03.30) 기준으로 공개된 공식 자료가 없습니다. 직접 AI Studio에서 테스트해보는 것이 가장 정확합니다.

▲ 목차로 돌아가기

마치며

Gemini 3.1 Flash Live는 실시간 음성 AI 분야에서 현재 가장 주목할 만한 모델입니다. ComplexFuncBench Audio 90.8%, 출력 토큰 8배 확대, 70개 언어 지원. 수치는 인상적입니다.

그런데 공식 문서를 직접 읽어보면 주의해야 할 지점이 보입니다. 오디오 세션은 최대 15분이고, 비디오를 켜면 2분입니다. 비동기 툴 호출은 아직 안 됩니다. 비디오 과금 기본값이 바뀌었습니다. 이 내용들은 발표 보도자료에는 잘 안 나옵니다.

솔직히 말하면, 지금 당장 새로 음성 에이전트를 만든다면 3.1로 시작하는 게 맞습니다. 하지만 기존 2.5 서비스를 올릴 때는 위에서 정리한 제약 조건을 먼저 체크하고 결정하는 게 낫습니다. 업그레이드인데 특정 기능이 퇴보하는 경험은 꽤 피곤합니다.

프리뷰 모델이라 앞으로 바뀔 가능성도 높습니다. 비동기 툴 호출이나 어펙티브 다이얼로그가 언제 추가될지는 아직 공개되지 않았습니다.

📚 본 포스팅 참고 자료

  1. 구글 공식 블로그 — 제미나이 3.1 플래시 라이브 출시 공고 (blog.google, 2026.03.26)
  2. Google DeepMind 모델 카드 — Gemini 3.1 Flash Live (deepmind.google, 2026.03.26)
  3. Google AI Dev — Gemini API 공식 가격 문서 (ai.google.dev, 2026.03.26 기준)
  4. Google AI Dev — Live API 공식 문서 (Capabilities, Session Management) (ai.google.dev)

본 포스팅은 2026년 3월 30일 기준 공개된 공식 문서를 바탕으로 작성되었습니다.
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기