Gemini 3.1 Flash Live, 무료인데 바로 쓸 수 있을까요?

Published on

in

Gemini 3.1 Flash Live, 무료인데 바로 쓸 수 있을까요?

2026.03.26 출시 기준
Preview 모델
Gemini 3.1 Flash Live

Gemini 3.1 Flash Live, 무료인데 바로 쓸 수 있을까요?

구글이 2026년 3월 26일 조용히 공개한 실시간 음성 AI 모델, Gemini 3.1 Flash Live. 무료 티어도 있고, 벤치마크 수치도 인상적입니다. 근데 막상 공식 문서를 처음부터 끝까지 읽어봤더니 일반 블로그 글들이 쏙 빼놓은 조건들이 꽤 있었습니다.

90.8%
ComplexFuncBench Audio 1위
131K
입력 토큰 한도
90+
지원 언어 수
무료
프리뷰 기간 중 AI Studio

Gemini 3.1 Flash Live란 무엇인가

2026년 3월 26일, 구글이 공식 블로그를 통해 Gemini 3.1 Flash Live를 전격 공개했습니다. 공식 발표에서 구글은 이 모델을 “차세대 음성 우선(voice-first) AI”라고 불렀는데, 핵심은 단순히 텍스트를 소리로 읽어주는 TTS가 아니라는 점입니다. 오디오가 들어오면 오디오로 직접 나가는 진짜 의미의 실시간 대화 모델입니다.

이 모델의 출신 배경이 꽤 흥미롭습니다. 구글 DeepMind의 공식 모델 카드(2026.03.26)에는 “Gemini 3.1 Flash Live is based on Gemini 3 Pro“라고 명시돼 있습니다. (출처: Google DeepMind Model Card, 2026.03.26) 즉, 구글의 최상위 모델인 Gemini 3 Pro의 아키텍처를 그대로 물려받아서 실시간 음성 특화로 파생시킨 모델입니다. Flash라는 이름 때문에 경량 모델이라 생각하기 쉬운데, 뼈대는 최상위 라인이라는 뜻입니다.

사용할 수 있는 경로는 세 갈래입니다. 개발자라면 Google AI Studio의 Gemini Live API를 통해 프리뷰 버전으로 바로 접근할 수 있고, 기업 고객은 Gemini Enterprise for Customer Experience 채널을 통해 쓸 수 있습니다. 일반 이용자는 Google 검색의 Search Live와 Gemini 앱의 Gemini Live를 통해 이미 경험 중입니다.

▲ 목차로 돌아가기

벤치마크 수치, 직접 봤습니다

구글이 공식 블로그(2026.03.26)에서 제시한 수치는 세 가지입니다. ComplexFuncBench Audio에서 90.8%, Scale AI의 AudioMultiChallenge에서 사고(thinking) 모드 기준 36.06%, 그리고 BigBench Audio에서도 선두권입니다. 각각 어떤 상황을 재는지 알아야 수치가 의미를 가집니다.

벤치마크 측정 내용 Gemini 3.1 FL 점수
ComplexFuncBench Audio 실시간 대화 중 다단계 함수 호출 정확도 90.8% (1위)
AudioMultiChallenge 대화 중단·망설임 포함 장기 추론 36.06% (thinking 모드, 1위)
BigBench Audio 음성 캡션, 억양 식별, 음향 장면 이해 선두권

ComplexFuncBench Audio 90.8%가 실제 의미하는 바는 이겁니다. 말로 “오늘 서울 날씨 알려줘”라고 했을 때, 모델이 외부 API를 호출하고 결과를 음성으로 돌려주는 일련의 흐름을 얼마나 정확하게 처리하는지를 잰 것입니다. 10번 말을 걸면 9번 이상 함수를 올바르게 실행한다는 뜻입니다.

💡 공식 발표문의 벤치마크와 실제 API 문서를 나란히 놓고 보니 이런 차이가 보였습니다. AudioMultiChallenge 36.06%는 thinking 모드를 켰을 때의 수치입니다. 기본값인 thinking=minimal 모드에서는 이 수치가 낮아집니다. 빠른 응답을 원하면 추론 정확도를 일부 양보하는 구조입니다. (출처: Google AI Blog, 2026.03.26; Scale AI AudioMultiChallenge Leaderboard)

▲ 목차로 돌아가기

실제 스펙과 기능 구성

공식 문서(ai.google.dev, 2026.03.26 업데이트)에 나와 있는 스펙입니다. 모델 코드명은 gemini-3.1-flash-live-preview이며, 입력은 텍스트·이미지·오디오·동영상을 모두 받고 출력은 텍스트와 오디오만 가능합니다.

속성 내용
모델 코드 gemini-3.1-flash-live-preview
입력 토큰 한도 131,072
출력 토큰 한도 65,536
함수 호출 지원 (동기 방식만)
Thinking 레벨 minimal / low / medium / high (기본값: minimal)
Search Grounding 지원
구조화 출력(JSON) ❌ 미지원
캐싱 ❌ 미지원
Batch API ❌ 미지원
SynthID 워터마크 모든 오디오 출력에 자동 적용

thinkingLevel 파라미터가 이전 세대(thinkingBudget)와 달라진 점도 짚을 필요가 있습니다. 2.5 Flash Native Audio에서 마이그레이션할 때 파라미터명 자체가 바뀌었기 때문에 기존 코드를 그대로 복붙하면 오류가 납니다. (출처: Google AI for Developers 공식 문서, 2026.03.26)

▲ 목차로 돌아가기

무료 티어가 있지만 조건이 따릅니다

공식 가격 페이지(ai.google.dev/pricing, 2026.03.29 기준)를 보면 Gemini 3.1 Flash Live의 무료 티어는 존재합니다. 입력·출력 모두 “Free of charge”라고 나와 있습니다. 그런데 한 줄을 더 내려가면 이렇게 나옵니다. “Used to improve our products: Yes”. 무료로 쓰면 구글이 해당 대화를 모델 개선에 활용한다는 뜻입니다. 기업 환경에서는 이 조건만으로도 무료 티어 사용 자체를 검토해야 합니다.

💡 유료 티어 가격을 공식 문서에서 확인하고 실제 비용을 계산해봤습니다. 음성 입력은 100만 토큰당 $3.00(또는 분당 $0.005), 음성 출력은 100만 토큰당 $12.00(또는 분당 $0.018)입니다. 1시간짜리 실시간 고객 지원 콜봇을 운영하면 입력 $0.30 + 출력 $1.08, 시간당 약 $1.38이 나옵니다. 하루 8시간 운영하면 약 $11, 한 달(22일) 기준 약 $242. 가볍게 시작할 수 있는 수준이지만 캐싱이 없어서 동일 질문이 반복되면 그대로 누적됩니다. (출처: Google Gemini API 공식 가격 페이지, 2026.03.29)

Search Grounding(구글 검색 연동)은 무료 티어에서도 지원되지만, 월 5,000건까지만 무료이고 그 이후는 검색 쿼리 1,000건당 $14가 붙습니다. 음성으로 “요즘 뉴스 알려줘”를 반복하는 시나리오라면 생각보다 빠르게 한도에 닿습니다.

▲ 목차로 돌아가기

사람들이 흘려 넘기는 한계 세 가지

출시 직후라 대부분의 리뷰가 장점을 나열하는 데 집중합니다. 공식 문서를 직접 읽고 나서 정리한 세 가지 제약은 생각보다 실전 영향이 큽니다.

① 구조화 출력 없음

현재 출력 형식은 텍스트와 오디오뿐입니다. JSON 구조화 출력이 지원되지 않습니다. (출처: ai.google.dev 공식 문서, 2026.03.26) 말로 “주문번호 12345의 배송 상태를 알려줘”라고 하면 모델이 답은 하지만, 그 응답을 내부 시스템이 파싱해서 처리하려면 별도의 후처리 레이어가 필요합니다. 백엔드 연동이 들어가는 순간 단순 데모 수준을 벗어나기 어렵습니다.

② 비동기 함수 호출 미지원

함수 호출은 동기 방식만 가능합니다. 외부 API 응답이 늦으면 그동안 대화가 멈춥니다. (출처: Google AI for Developers 공식 문서, 2026.03.26; EffiFlow 실사용 테스트, 2026.03.27) 배송 조회 API가 2~3초 걸리는 구조라면 이용자가 그 침묵을 그대로 겪어야 합니다. 고객 응대 봇처럼 응답 속도가 중요한 시나리오에서는 치명적으로 작용합니다.

③ 공감형 대화 미지원

이전 버전 2.5 Flash Native Audio에 있던 “proactive audio”(능동적 오디오)와 “empathic dialogue”(공감형 대화) 기능이 3.1 Flash Live에서는 아직 지원되지 않습니다. (출처: Google AI for Developers 마이그레이션 가이드, 2026.03.26) 2.5 기반으로 공감형 응대 기능을 구현해뒀다면 업그레이드 시 해당 코드를 제거해야 합니다.

▲ 목차로 돌아가기

ADK와 충돌하는 이유

구글이 자체적으로 내놓은 에이전트 개발 프레임워크인 ADK(Agent Development Kit)가 현재 Gemini 3.1 Flash Live Preview를 지원하지 않습니다. 구글 공식 GitHub 이슈(#5018, 2026.03.26 등록)에 따르면, 기존 google-genai SDK로는 문제없이 연결되지만 ADK가 내부 세션을 오케스트레이션하는 방식에서 충돌이 발생합니다.

💡 이 부분이 주목할 지점입니다. 구글이 AI 에이전트 구축을 위해 ADK를 밀고 있는데, 정작 최신 음성 모델이 ADK와 호환되지 않습니다. 구글의 자체 생태계 안에서도 아직 연결이 완전하지 않다는 뜻입니다. “구글 제품이니까 구글 프레임워크와 잘 붙겠지”라는 기대를 프리뷰 단계에서 그대로 적용하면 안 됩니다. (출처: google/adk-python GitHub Issues #5018, 2026.03.26)

해결 방법은 공식 답변이 아직 없는 상태입니다. 현재로선 ADK를 우회해 google-genai SDK를 직접 사용하거나, GA(정식 출시) 이후 ADK 패치를 기다리는 것이 현실적입니다. 구글이 공식 일정을 내놓지 않았습니다.

▲ 목차로 돌아가기

지금 당장 써볼 수 있는 시나리오

한계를 다 알고 나서도 써볼 가치가 있는 상황은 분명히 있습니다. 제약 조건 안에서 실제로 효과를 낼 수 있는 시나리오를 정리했습니다.

내부 음성 FAQ 봇

영업팀이 제품 스펙을 말로 물어보면 내부 DB 함수를 호출해 답해주는 구조입니다. 응답 지연이 크지 않은 내부 API라면 동기 함수 호출의 단점이 체감되지 않습니다. 구조화 출력이 없어도 최종 사용자가 사람이라면 음성 응답만으로 충분합니다.

다국어 1차 고객 응대

90개 이상의 언어를 지원하고 실시간으로 처리됩니다. 외국어권 고객의 1차 문의를 필터링하는 용도로 쓰기엔 지금도 충분합니다. 민감한 개인정보가 포함되지 않는 문의 유형이라면 무료 티어도 무방합니다.

회의 실시간 보조

131,072 토큰 입력 한도 덕분에 긴 회의 녹음을 통째로 먹이고 실시간으로 질문할 수 있습니다. 단, 캐싱이 없어서 동일한 콘텍스트를 매번 전송해야 합니다. 회의 1건당 단발성으로 쓰는 구조라면 비용 부담이 크지 않습니다.

▲ 목차로 돌아가기

Q&A

Q. Gemini 3.1 Flash Live와 기존 Gemini Live는 어떻게 다른가요?
일반 이용자가 쓰는 Gemini Live 앱은 이번 업데이트를 통해 내부적으로 3.1 Flash Live 모델을 탑재했습니다. 이전 버전 대비 응답 속도가 빨라지고 대화 맥락 유지 시간이 두 배 늘어난 것이 가장 체감하기 좋은 차이입니다. 개발자가 API로 직접 접근하는 것과 앱으로 사용하는 것은 같은 모델을 쓰지만 설정 가능한 파라미터가 다릅니다.
Q. SynthID 워터마크가 음질에 영향을 주나요?
구글 공식 설명에 따르면 SynthID 워터마크는 “감지 불가능한” 방식으로 오디오에 직접 내장됩니다. 사람 귀에는 들리지 않는다는 의미입니다. 실제 음질 열화를 발생시키는지 여부는 구글이 공식적으로 밝히지 않았습니다. 다만 모든 오디오 출력에 의무 적용되기 때문에 선택적으로 끌 수 없습니다.
Q. 한국어 인식 품질은 어떤가요?
90개 이상의 언어를 지원한다고 명시돼 있으며 한국어도 포함됩니다. 실사용 테스트(EffiFlow, 2026.03.27)에서는 Korean 인식 품질이 “quite decent”라고 평가됐고, 긴 문장에서 중간에 끊기는 현상이 간헐적으로 있었다는 보고도 있었습니다. 배경 소음 필터링은 이전 버전보다 개선됐습니다.
Q. OpenAI Realtime API와 비교하면 어떤가요?
ComplexFuncBench Audio 기준으로는 Gemini 3.1 Flash Live가 선두입니다. 비용 면에서는 구글 쪽이 저렴하다는 분석이 있습니다. 다만 OpenAI Realtime API는 GA 상태인 반면 Gemini 3.1 Flash Live는 아직 프리뷰입니다. 프리뷰 기간 중 요금과 기능이 바뀔 수 있기 때문에 지금 시점에서 단순 수치 비교만으로 결론을 내리기는 이릅니다.
Q. 지식 단절일이 2025년 1월인데, 2026년 3월 정보를 얼마나 알까요?
공식 문서에서 확인한 내용입니다. 모델 카드에는 “Knowledge cutoff: 2025년 1월”이라고 명시돼 있습니다. 2026년 이후 사건이나 정보는 학습돼 있지 않아서, Search Grounding(구글 검색 연동)을 켜지 않으면 최신 정보 질문에 답을 못할 수 있습니다. 실시간 검색 연동이 필요한 시나리오라면 Search Grounding을 반드시 활성화해야 합니다.

▲ 목차로 돌아가기

마치며

Gemini 3.1 Flash Live는 실시간 음성 AI 분야에서 진짜 의미 있는 한 발짝입니다. 벤치마크 수치도 인상적이고, Gemini 3 Pro 아키텍처를 베이스로 가져왔다는 점에서 성능의 바탕 자체는 탄탄합니다. 구글 공식 블로그에서 제시한 홈디포, 버라이즌 같은 기업들의 긍정 반응도 체감 개선이 실제라는 근거가 됩니다.

그런데 솔직히 말하면, 지금 당장 프로덕션에 투입하기에는 빠진 것들이 너무 눈에 띕니다. 구조화 출력이 없고, 비동기 함수 호출도 안 되고, 캐싱도 없습니다. 구글 자체 ADK와도 아직 맞지 않습니다. 이게 단순한 버그 수준이 아니라 현재 프리뷰 아키텍처상 의도적으로 제외된 기능들이라는 점에서, GA 이전에 실서비스로 쓰는 건 리스크가 작지 않습니다.

막상 Google AI Studio에서 마이크를 열고 말을 걸어보면 반응 속도와 자연스러움은 확실히 달라졌습니다. 지금은 빠르게 프로토타입을 돌려보고, 정식 출시 이후 안정화 상태를 확인하면서 프로덕션 전환 시점을 결정하는 게 가장 현실적인 접근입니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

  1. 구글 공식 블로그 — 제미나이 3.1 플래시 라이브 발표 (blog.google, 2026.03.26)
  2. Google AI for Developers — Gemini 3.1 Flash Live Preview 공식 문서 (ai.google.dev, 2026.03.26)
  3. Google AI for Developers — Gemini API 공식 가격 페이지 (ai.google.dev, 2026.03.29 기준)
  4. Google DeepMind — Gemini 3.1 Flash Live Model Card (deepmind.google, 2026.03.26)
  5. Google ADK Python GitHub Issues #5018 (github.com, 2026.03.26)

※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini 3.1 Flash Live는 현재 프리뷰 모델로, 정식 출시 전 요금·기능·한도가 조정될 수 있습니다. 최신 정보는 Google AI for Developers 공식 문서에서 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기