Preview 모델
gemini-3.1-flash-live-preview
Gemini 3.1 Flash Live 써봤더니 이게 달랐습니다
무료라고 해서 가져다 쓰면 되는 줄 알았는데, 약관을 보니 그게 아니었습니다. 벤치마크 1위 수치 뒤에 있는 조건, 세션 시간 한계, 비용 구조까지 공식 문서 그대로 확인해봤습니다.
Gemini 3.1 Flash Live, 정확히 무엇인가요
구글이 2026년 3월 26일 공식 출시한 Gemini 3.1 Flash Live는 구글 자체 설명에 따르면 “가장 높은 품질의 오디오·음성 모델”입니다. (출처: Google 공식 블로그, 2026.03.26) 텍스트를 음성으로 변환하거나, 음성을 텍스트로 바꾸는 기존 방식과 달리, 오디오를 오디오 토큰으로 직접 처리하는 네이티브 멀티모달 구조입니다.
모델 명칭은 gemini-3.1-flash-live-preview이며, DeepMind 모델 카드에 의하면 Gemini 3 Pro를 기반으로 합니다. (출처: Google DeepMind 모델 카드, 2026.03.26) 컨텍스트 윈도우는 입력 128K 토큰, 출력 64K 토큰이고, 텍스트·이미지·오디오·비디오 입력을 모두 지원합니다.
사용 경로는 크게 세 가지입니다. 개발자는 Google AI Studio의 Gemini Live API를 통해 프리뷰로 접근하고, 기업은 Gemini Enterprise for Customer Experience, 일반 사용자는 Gemini Live와 Search Live에서 이 모델을 만날 수 있습니다.
벤치마크 1위가 실전에서도 1위일까요
💡 공식 발표 수치와 실제 개발 환경을 같이 놓고 보니, “1위”라는 표현이 붙는 조건이 생각보다 구체적이었습니다.
구글 공식 발표에 따르면 Gemini 3.1 Flash Live는 ComplexFuncBench Audio 벤치마크에서 90.8%를 기록하며 선두입니다. 이 벤치마크는 여행 예약 같은 다단계 함수 호출을 실제 오디오 입력으로 평가합니다. 이전 모델 대비 명확한 개선입니다. (출처: Google 공식 블로그, 2026.03.26)
Scale AI의 AudioMultiChallenge 벤치마크에서도 36.1%로 1위인데, 여기서 중요한 단서가 붙습니다. “thinking 모드 활성화 시”라는 조건입니다. Thinking 모드는 추론 품질을 높이는 대신 응답 지연(latency)이 늘어나는 구조입니다. 구글은 공식 문서에서 낮은 지연이 필요할 때는 thinking을 minimal로 설정하길 권고합니다. 즉, 1위 수치를 그대로 실시간 대화에 적용하면 응답이 느려집니다.
실제 빌드 경험에서는 지연 시간이 sub-300ms를 목표로 하지만, 이전 세대(2.5 Flash Native Audio)를 쓴 독립 빌드에서 400~600ms를 기록했다는 사례도 있습니다. (출처: Reddit r/founder, 2026.03.29) “250ms 보장”이라는 주장은 구글 공식 문서에 없는 수치입니다.
| 벤치마크 | Gemini 3.1 Flash Live | 조건 |
|---|---|---|
| ComplexFuncBench Audio | 90.8% (1위) | 다단계 함수 호출, 여행 예약 시나리오 |
| AudioMultiChallenge (Scale AI) | 36.1% (1위) | thinking 모드 ON 시에만 해당 |
| BigBench Audio | 선두 (수치 미공개) | 음성·사운드 이해 5개 영역 평가 |
※ 표 내 수치 출처: Google 공식 블로그 및 DeepMind 모델 카드 (2026.03.26)
무료 API, 생각보다 좁은 조건
💡 가격 페이지의 “Free of charge” 표기와 실제 서비스 가능한 범위 사이에는 꽤 넓은 간극이 있습니다.
Google AI 공식 가격 페이지(2026.03.29 기준)를 보면 gemini-3.1-flash-live-preview는 입력·출력 모두 “Free of charge”로 표기되어 있습니다. (출처: Google Gemini API 가격 페이지, 2026.03.29 확인) 그래서 그냥 API 키 받아서 쓰면 되는 것처럼 보입니다. 막상 약관을 같이 읽으면 달라집니다.
첫째, Flash Live는 아직 Preview 단계입니다. Google 약관은 Preview로 표기된 서비스를 프로덕션 사용 목적으로 규정하지 않는다고 명시합니다. 프리뷰 단계에서는 Rate Limit도 일반 모델보다 더 엄격합니다.
둘째, 무료 티어로 API를 쓰면 입력·출력 데이터가 Google 제품 개선에 활용될 수 있습니다. 인간 리뷰어가 내용을 읽거나 주석을 달 수도 있다고 약관에 직접 나와 있습니다. 민감한 고객 대화나 사내 데이터를 넘기는 용도라면 무료 티어가 맞지 않습니다.
셋째, EEA(유럽 경제 지역)·스위스·영국 사용자를 대상으로 하는 앱은 유료 티어만 사용해야 합니다. 가격 페이지에 “Free of charge”라고 나와 있어도, 이 지역 사용자에게 서비스하는 제품에는 그 무료 경로 자체가 약관상 허용되지 않습니다.
Rate Limit의 정확한 숫자도 AI Studio에서 직접 확인해야 합니다. Google 공식 레이트 리밋 문서가 “한도는 프로젝트별로 다르며 보장되지 않는다”고 안내하기 때문입니다. 블로그에서 “분당 N회”라고 적어둔 수치를 그대로 믿고 설계에 반영하면 실제와 다를 수 있습니다.
비용 절감 90%의 실제 계산
기존 3단계 스택 vs. 네이티브 오디오 구조
AI 음성 에이전트를 만들 때 기존 방식은 STT(Deepgram/Whisper) → LLM(GPT-4o 또는 Claude) → TTS(ElevenLabs)를 순서대로 엮는 구조입니다. 각 API 호출마다 지연과 비용이 쌓입니다. 실제 프리미엄 조합 기준으로 분당 $0.06~$0.20 수준이라는 실측 데이터가 있습니다. (출처: Reddit r/founder, AI 콜 애널리틱스 플랫폼 운영자 실측, 2026.03.29)
Gemini 3.1 Flash Live는 STT·TTS 과정 없이 오디오 토큰을 직접 처리합니다. 유료 기준 가격 구조는 다음과 같습니다. (출처: Google Gemini API 가격 페이지, 2026.03.29 확인)
| 항목 | 유료 가격 |
|---|---|
| 텍스트 입력 | $0.75 / 1M 토큰 |
| 오디오 입력 | $3.00 / 1M 토큰 또는 $0.005 / 분 |
| 이미지·비디오 입력 | $1.00 / 1M 토큰 또는 $0.002 / 분 |
| 텍스트 출력 | $4.50 / 1M 토큰 |
| 오디오 출력 | $12.00 / 1M 토큰 또는 $0.018 / 분 |
10분짜리 양방향 통화를 기준으로 직접 계산해보면, 오디오 입력 $0.05 + 오디오 출력 $0.18 = 약 $0.23입니다. 기존 프리미엄 스택($0.60~$2.00)과 비교하면 실제로 85~90% 절감이 가능합니다. 100콜이면 $23, 1,000콜이면 $230 수준입니다. 무시하기 어려운 격차입니다.
💡 단, 이 수치는 오디오만 사용했을 때의 기준입니다. 비디오를 함께 스트리밍하면 비용이 늘어나고, 세션 시간도 급격히 줄어듭니다. 아래 섹션에서 그 이유를 설명합니다.
추가로 Search Grounding을 쓴다면 월 5,000건까지는 무료지만, 이후 1,000건당 $14가 붙습니다. 비용 전체 그림을 볼 때 모델 비용만 계산하면 과소 추정이 됩니다.
세션 시간 제한, 놓치기 쉬운 함정
비용 절감 수치가 매력적이어도, Flash Live로 장시간 서비스를 만드는 건 기본 설정대로는 되지 않습니다. Live API 공식 문서에 따르면 세션 지속 시간은 기본적으로 오디오 전용은 최대 15분, 오디오+비디오 혼합은 최대 2분으로 제한됩니다.
2분짜리 영상 통화로 고객을 응대하는 서비스를 만든다고 생각해보면, 이 제한이 얼마나 현실적인 문제인지 바로 느껴집니다. 세션 관리 기법을 따로 적용해야 더 긴 통화가 가능한데, 이건 추가 개발 비용이 드는 부분입니다.
비디오 스트리밍 설정도 주의가 필요합니다. 공식 Live API 문서는 기본값으로 모든 비디오 프레임을 처리하도록 되어 있다고 안내합니다. 음성 위주의 서비스를 만들면서 카메라 입력을 켜두면 비용이 의도치 않게 증가합니다. 실제로 비디오가 꼭 필요한 시점에만 입력이 들어오도록 제어하는 게 좋습니다.
| 세션 유형 | 기본 최대 시간 | 비고 |
|---|---|---|
| 오디오 전용 | 15분 | 세션 관리 기법 적용 시 연장 가능 |
| 오디오 + 비디오 | 2분 | 기본값, 추가 개발 없이는 제한됨 |
※ 출처: Google Gemini Live API 공식 문서 (blog.laozhang.ai 검증, 2026.03.29 기준)
Search Live 글로벌 확대와 연결고리
💡 Gemini 3.1 Flash Live의 출시 날짜가 Search Live의 글로벌 서비스 확대와 정확히 같은 날(3월 26일)인 건 우연이 아닙니다.
Google은 3월 26일 같은 날 Search Live를 200개 이상 국가·지역으로 확대했습니다. (출처: Google 공식 블로그, 2026.03.26) 이 확대의 기술적 기반이 바로 Gemini 3.1 Flash Live의 다국어 처리 능력입니다. 기존에는 일부 국가만 사용 가능했던 실시간 멀티모달 검색 대화가 이제 한국을 포함한 전 세계에서 열렸습니다.
Search Live는 구글 앱(Android/iOS)에서 검색창 아래 Live 아이콘을 누르면 시작됩니다. 말로 질문하거나 카메라로 사물을 보여주면서 대화를 이어갈 수 있고, Google Lens에서도 Live 버튼을 통해 연결됩니다. 가장 실감 나는 체험 경로는 일반 사용자 기준으로 이쪽입니다.
Gemini Live 앱 측면에서는 이전 모델 대비 응답이 더 빠르고, 대화 맥락을 두 배 더 길게 유지한다고 구글이 밝혔습니다. 긴 브레인스토밍 세션에서도 흐름이 끊기지 않는다는 게 실제 달라진 점입니다.
어떤 상황에서 써야 할까요
솔직히 말하면, 지금 단계에서 Gemini 3.1 Flash Live가 모든 음성 프로젝트에 정답은 아닙니다. 이 모델이 맞는 상황과 아직 이른 상황을 나눠보면 이렇습니다.
잘 맞는 경우
- AI Studio에서 음성 기반 에이전트를 빠르게 프로토타입하고 싶을 때
- 기존 STT→LLM→TTS 스택 비용이 부담스러워서 대안을 찾고 있을 때
- Gemini Live 또는 Search Live를 통해 일반 사용자 체험을 원할 때
- 내부 데모, 저위험 실험, 단기 POC 목적일 때
아직 이른 경우
- 대규모 콜센터처럼 안정적인 SLA가 필요한 프로덕션 환경 — Preview 모델이기 때문
- EEA·스위스·영국 사용자를 대상으로 하는 공개 서비스 — 약관상 유료 티어만 허용
- 고객 대화, 사내 기밀 등 민감 데이터를 다루는 경우 — 무료 티어는 데이터 활용 조건이 다름
- 15분 이상 연속 음성 세션이 필요한 서비스 — 세션 관리 기법 없이는 제한에 걸림
Vapi, Bland 같은 래퍼 플랫폼이 아직 선택지에 남아 있는 이유도 여기 있습니다. 시간 대비 프로덕션 준비도와 사전 빌트인 통합이 아직은 이쪽이 낫습니다. 다만 Flash Live가 GA(정식 출시)로 넘어가는 2026년 하반기부터는 판이 달라질 가능성이 높습니다.
자주 묻는 질문 Q&A
Gemini 3.1 Flash Live는 지금 당장 무료로 쓸 수 있나요?
네, 가격 페이지 기준 무료입니다. 단, Preview 모델이기 때문에 프로덕션 사용은 약관상 권고 사항이 아닙니다. 또 무료 티어에서는 입출력 데이터가 Google 제품 개선에 활용될 수 있습니다. (출처: Google Gemini API 공식 약관, 2026.03.29 기준)
10분 통화를 1,000회 운영하면 비용이 얼마나 나오나요?
오디오 전용 기준으로 계산하면, 10분 통화 1회당 오디오 입력 $0.05 + 오디오 출력 $0.18 = 약 $0.23입니다. 1,000회면 약 $230입니다. Search Grounding이나 텍스트 처리가 추가되면 이 수치보다 높아집니다. (출처: Google Gemini API 가격 페이지 $0.005/분 오디오 입력, $0.018/분 오디오 출력 기준)
브라우저에서 직접 Flash Live API를 연결해도 되나요?
기술적으로 가능하지만, Google 공식 문서가 권고하는 방법은 서버에서 에페머럴 토큰(ephemeral token)을 발급받아 브라우저 클라이언트에 전달하는 방식입니다. API 키를 프론트엔드에 직접 노출하는 방식은 피해야 합니다. 에페머럴 토큰의 기본 유효 시간은 새 세션 시작 1분 + 연결 유지 30분입니다.
Thinking 모드를 켜면 응답이 얼마나 느려지나요?
정확한 수치는 Google이 공식적으로 발표하지 않은 부분입니다. 다만 Vertex AI 공식 문서는 실시간 저지연이 중요한 경우 thinkingLevel을 MINIMAL로 설정하도록 권고합니다. AudioMultiChallenge 36.1% 1위는 thinking ON 상태에서의 수치이므로, 지연에 민감한 서비스에는 그대로 적용되지 않습니다.
SynthID 워터마크가 오디오 품질에 영향을 주나요?
Google은 SynthID 워터마크가 “감지 불가능(imperceptible)”하다고 공식 블로그에서 밝히고 있습니다. 음질에 실질적인 영향이 없는 수준으로 오디오 출력에 내장됩니다. AI 생성 콘텐츠 식별 목적이며, 오정보 확산 방지 기능으로 작동합니다. (출처: Google 공식 블로그, 2026.03.26)
마치며
Gemini 3.1 Flash Live는 기술적으로 분명히 한 단계 올라선 음성 모델입니다. 벤치마크 수치, 비용 절감 폭, 200개 이상 국가로 확장된 Search Live 기반이 되었다는 사실은 바꿀 수 없습니다.
그러나 막상 써보면 “무료 API니까 그냥 쓰면 되겠다”는 기대와 실제 사이에 간극이 있습니다. Preview 약관 조건, 무료 티어의 데이터 처리 방식, EEA 지역 제한, 세션 시간 한계까지 공식 문서를 직접 읽어야 보이는 조건들이 많습니다.
개인적인 판단으로는, 지금 당장 프로토타입과 내부 실험에는 적극 권합니다. 다만 프로덕션 전환 전에 약관·Rate Limit·세션 설계를 한번 더 점검하는 것이 현실적입니다. 2026년 하반기 GA 전환 이후가 본격 게임 체인저가 될 것 같습니다.
📎 본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 가격·약관·Rate Limit은 Google 공식 페이지에서 반드시 직접 확인하시기 바랍니다. 작성 기준일: 2026년 3월 31일.











댓글 남기기