Gemini 3.1 Flash Live, 무료면 다 될까요?
구글이 3월 26일 공개한 실시간 음성 AI. 공식 API 문서와 벤치마크 원문을 직접 확인했더니, 무료 티어와 유료 티어의 차이가 생각보다 컸습니다. 그리고 에이전트를 만들려는 개발자라면 반드시 알아야 할 함정이 하나 숨어 있습니다.
90개 이상 언어 지원
128K 입력 토큰
무료 티어 지원
Gemini 3.1 Flash Live가 뭔가요? — 1분 요약
Gemini 3.1 Flash Live는 구글이 2026년 3월 26일 공식 출시한 실시간 음성·비전 AI 모델입니다. 정식 모델 ID는 gemini-3.1-flash-live-preview이며, Gemini Live API를 통해 Google AI Studio에서 프리뷰 버전으로 사용할 수 있습니다. (출처: Google AI for Developers 공식 문서, 2026.03.26)
이 모델의 핵심은 딱 두 가지입니다. 첫째, 낮은 지연 시간(low-latency)으로 실시간 대화를 처리한다. 둘째, 텍스트·오디오·이미지·비디오를 동시에 입력받아 음성 또는 텍스트로 출력한다. 쉽게 말하면 “전화 상담 AI”나 “음성 기반 에이전트”를 만들 때 쓸 수 있는 구글의 최신 엔진이라고 보면 됩니다.
모델 구조적으로는 Gemini 3 Pro를 기반으로 합니다. 입력 토큰 한도는 131,072(약 128K), 출력은 65,536(약 64K)으로, 긴 대화 맥락을 상당 시간 유지할 수 있습니다. (출처: Google DeepMind 모델 카드, 2026.03.26) 이 숫자가 중요한 이유는 뒤에서 따로 설명합니다.
💡 공식 발표문과 API 스펙을 같이 놓고 보니 이런 차이가 보였습니다.
구글의 한국어 공식 블로그는 “가장 높은 품질의 오디오 모델”이라고 소개하지만, 실제 API 문서를 보면 배치 처리(Batch API), 컨텍스트 캐싱, 코드 실행, 이미지 생성은 전부 Not Supported입니다. 음성 에이전트에 특화된 모델이지, 범용 멀티모달 모델이 아닙니다.
벤치마크 수치, 직접 확인해 봤습니다
구글이 공식 발표에서 제시한 수치는 세 가지 벤치마크 기반입니다. 숫자만 보면 인상적이지만, 각 벤치마크가 무엇을 측정하는지 알아야 실제로 의미 있는지 판단할 수 있습니다.
ComplexFuncBench Audio — 90.8% 달성
ComplexFuncBench는 여행 예약처럼 여러 단계의 함수 호출이 연속으로 필요한 작업에서 모델이 얼마나 정확하게 처리하는지 평가합니다. 음성 버전(ComplexFuncBench Audio)에서 Gemini 3.1 Flash Live는 90.8%를 기록하며 이전 모델 대비 선두를 차지했습니다. (출처: Google 공식 한국어 블로그, 2026.03.26) 이 수치는 “음성으로 말한 복잡한 지시를 AI가 제대로 실행하는 성공률”로 이해하면 됩니다.
AudioMultiChallenge — Thinking 모드 ON 시 36.06%
Scale AI가 운영하는 AudioMultiChallenge는 대화 중단, 말을 흐리는 상황, 긴 맥락 유지 등 실제 대화 환경에서의 복잡한 지시 따르기를 평가합니다. Thinking 모드를 켰을 때 36.06%로 현재 1위입니다. (출처: Google 공식 한국어 블로그, 2026.03.26) 36%가 낮아 보일 수 있는데, 이 벤치마크 자체가 매우 까다로운 시나리오 중심이라 타 모델 대비 선두라는 맥락이 중요합니다.
Big Bench Audio — 단일 턴 오디오 이해
1,000개의 오디오 샘플로 음성 이해, 소리 인식, 억양/언어 식별 등 5가지 능력을 측정합니다. Artificial Analysis가 외부에서 평가했으며, 이전 세대 모델 대비 개선이 확인됩니다. (출처: Google DeepMind 모델 카드, 2026.03.26)
| 벤치마크 | 측정 대상 | 결과 | 평가 기관 |
|---|---|---|---|
| ComplexFuncBench Audio | 다단계 함수 호출 성공률 | 90.8% | 내부 평가 |
| AudioMultiChallenge | 장기 대화 맥락 유지 | 36.06% (Thinking ON, 1위) | Scale AI |
| Big Bench Audio | 오디오 종합 이해 | 이전 모델 대비 개선 | Artificial Analysis |
※ 표 내 수치는 공식 발표 기준 (출처: Google 공식 블로그 + DeepMind 모델 카드, 2026.03.26)
무료 티어로 쓸 수 있는 것과 없는 것
Gemini 3.1 Flash Live는 무료 티어(Free Tier)를 지원합니다. Google AI Studio에서 API 키 하나만 발급하면 바로 테스트할 수 있습니다. 그런데 “무료”라는 말에 기대가 너무 커서 실망하는 사람들이 많습니다. 실제로 무료에서 가능한 것과 불가능한 것을 공식 가격 문서로 직접 확인해 봤습니다.
무료 티어의 실제 범위
공식 가격 문서(ai.google.dev/gemini-api/docs/pricing, 2026.03.31 기준)에 따르면, Gemini 3.1 Flash Live의 무료 티어에서는 입력과 출력 모두 무료입니다. 텍스트 입력, 오디오 입력, 이미지/비디오 입력, 텍스트 출력, 오디오 출력 전부 해당됩니다. Google Search 그라운딩도 월 5,000회까지 무료입니다. 개발 테스트 수준에서는 전혀 돈이 들지 않는다는 뜻입니다.
유료 전환 시 오디오 출력 비용 — 계산해 봤습니다
서비스를 실제로 배포하면 유료 티어로 전환해야 합니다. 이때 가장 주의할 항목이 오디오 출력 가격입니다. 공식 문서 기준으로 오디오 출력은 100만 토큰당 $12, 또는 분당 $0.018입니다. (출처: Google AI for Developers 가격 문서, 2026.03.31)
AI 음성 응답 1분이 약 150단어, 약 200토큰이라고 가정하면, 1시간 통화는 약 12,000토큰입니다. 하루 100시간 분량의 음성 대화를 처리하면 약 $1.08, 한 달 기준으로 약 $32(약 4만 5천 원) 수준입니다. 초소형 서비스에는 이 수준이 감당 가능하지만, 분당 요금제로 보면 시간당 $1.08로, 동시 접속자가 100명 이상이면 비용이 가파르게 올라갑니다.
💡 기존 Live API 사용자들이 간과하는 비용 항목이 있습니다.
TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO가 기본값으로 바뀌었습니다. 이전 모델에서는 TURN_INCLUDES_ONLY_ACTIVITY가 기본이었기 때문에, 마이그레이션 후 동일한 코드를 그대로 쓰면 비디오 프레임이 모두 토큰으로 계산되어 비용이 예상보다 많이 나올 수 있습니다. 구글 공식 API 마이그레이션 가이드에 명시된 내용입니다. (출처: Google AI for Developers API 문서, 2026.03.26)
| 항목 | 무료 티어 | 유료 티어 |
|---|---|---|
| 텍스트 입력 | 무료 | $0.75 / 1M 토큰 |
| 오디오 입력 | 무료 | $3.00 / 1M 토큰, 또는 $0.005/분 |
| 이미지/비디오 입력 | 무료 | $1.00 / 1M 토큰, 또는 $0.002/분 |
| 텍스트 출력 | 무료 | $4.50 / 1M 토큰 |
| 오디오 출력 | 무료 | $12.00 / 1M 토큰, 또는 $0.018/분 |
| 컨텍스트 캐싱 | 미지원 | 미지원 |
| 배치 API | 미지원 | 미지원 |
※ 출처: Google AI for Developers 공식 가격 문서 (ai.google.dev/gemini-api/docs/pricing, 2026.03.31 기준)
에이전트 빌더가 막히는 이유가 여기 있습니다
Gemini 3.1 Flash Live로 복잡한 음성 에이전트를 만들려는 개발자들이 가장 많이 막히는 지점이 있습니다. 공식 API 문서를 꼼꼼히 읽지 않으면 절대 알 수 없는 부분입니다.
비동기 함수 호출이 아직 안 됩니다
가장 중요한 제약 사항입니다. 공식 API 마이그레이션 문서에는 이렇게 나옵니다. “비동기 함수 호출(Async function calling)은 아직 지원되지 않습니다. 함수 호출은 동기 방식만 가능합니다. 모델은 도구 응답(tool response)을 받을 때까지 응답을 시작하지 않습니다.” (출처: Google AI for Developers API 문서, 2026.03.26)
이 말이 실제로 의미하는 바는 이렇습니다. 예를 들어 음성으로 “현재 주문 배송 상태 알려줘”라고 요청했을 때, AI가 배송 API를 호출하는 동안 응답을 보류합니다. 외부 API 응답이 느리면, 그만큼 사용자가 기다려야 합니다. 실시간 대화 느낌이 깨지는 상황이 발생합니다.
💡 같은 Gemini 3.1 계열이라도 모델마다 기능 지원 범위가 다릅니다.
Proactive Audio와 Affective Dialogue도 빠졌습니다
이전 모델(Gemini 2.5 Flash Native Audio)에서는 AI가 먼저 말을 거는 “Proactive Audio”와 사용자 감정 상태에 맞게 응답 방식을 바꾸는 “Affective Dialogue”를 사용할 수 있었습니다. 그런데 3.1 Flash Live에서는 두 기능 모두 아직 지원되지 않습니다. 공식 마이그레이션 가이드에는 “이 기능에 대한 설정을 코드에서 제거하라”고 명시되어 있습니다. (출처: Google AI for Developers API 문서, 2026.03.26) 이 두 기능을 활용하던 기존 프로젝트는 마이그레이션 후 동작이 달라집니다.
이전 모델에서 마이그레이션할 때 주의할 지점
이미 gemini-2.5-flash-native-audio-preview-12-2025로 서비스를 운영 중이라면 업그레이드를 고민하게 됩니다. 공식 마이그레이션 가이드를 바탕으로 놓치기 쉬운 핵심 항목만 정리했습니다.
thinkingBudget에서 thinkingLevel로 바뀌었습니다
사고 깊이를 제어하는 파라미터가 변경됐습니다. 기존 thinkingBudget(숫자 입력) 대신, 이제는 thinkingLevel을 사용합니다. 설정 가능한 값은 minimal, low, medium, high 네 가지이며, 기본값은 minimal입니다. (출처: Google AI for Developers API 문서, 2026.03.26)
기본값이 minimal이라는 점이 중요합니다. 지연 시간 최소화를 우선시한 설정이기 때문에 사고 깊이는 최소치입니다. 복잡한 지시가 많은 에이전트를 운영한다면 medium 이상으로 올려야 하는데, 그만큼 응답 속도는 느려집니다. 빠른 대화 vs 정확한 사고, 서비스 성격에 따라 선택이 달라집니다.
서버 이벤트 처리 방식이 달라졌습니다
이전에는 하나의 서버 이벤트에 단일 콘텐츠만 담겼지만, 3.1 Flash Live에서는 하나의 BidiGenerateContentServerContent 이벤트에 오디오 청크와 텍스트 트랜스크립트 같은 여러 콘텐츠 파트가 동시에 담길 수 있습니다. 이를 처리하지 않으면 일부 콘텐츠가 누락됩니다. 기존 코드를 그대로 이식하면 동작 이상이 생기는 이유입니다. (출처: Google AI for Developers API 문서, 2026.03.26)
send_client_content 사용 범위가 줄었습니다
send_client_content는 이제 초기 컨텍스트 기록(initial context history)을 세팅할 때만 쓸 수 있습니다. 대화 중 텍스트를 실시간으로 업데이트하려면 반드시 send_realtime_input으로 바꿔야 합니다. 이 부분을 놓치면 대화 중간에 컨텍스트 업데이트가 무시됩니다. (출처: Google AI for Developers API 문서, 2026.03.26)
실제 서비스 사례 — 버라이즌, 홈디포, 스티치
구글 공식 블로그에 따르면, 버라이즌(Verizon), 홈디포(The Home Depot), 라이브킷(LiveKit) 등 기업들이 이미 3.1 Flash Live를 도입한 후 긍정적인 피드백을 공유했습니다. (출처: Google 공식 한국어 블로그, 2026.03.26) 공개된 구체적 수치는 없지만, 배경음 속에서도 정확히 지시를 인식하는 능력이 개선됐다는 점이 공통 피드백입니다.
개발자용 실제 앱 사례 3가지
구글 개발자 블로그(2026.03.26)에는 세 가지 실제 앱 사례가 소개됐습니다. 첫째, 구글의 디자인 도구 Stitch는 음성으로 UI 디자인을 수정하고 피드백을 받는 기능을 3.1 Flash Live로 구현했습니다. 둘째, 노인용 AI 동반 디바이스 Ato는 다국어 지원 기능을 활용해 일상 대화를 통한 사회적 연결을 제공합니다. 셋째, RPG 게임 Wits End는 게임 마스터 역할에 3.1 Flash Live의 자연스러운 음성을 적용했습니다.
이 세 사례에서 공통적으로 확인되는 건, 해당 모델이 콜센터 자동화보다 “사람과 대화하는 느낌”이 필요한 서비스에 더 잘 맞는다는 점입니다. 복잡한 업무 자동화보다 자연스러운 대화 경험이 핵심인 곳에서 먼저 쓰이고 있습니다.
90개 언어 지원 — 한국어 포함
3.1 Flash Live는 90개 이상의 언어로 실시간 멀티모달 대화를 지원하며, 이번 주부터 200개 이상의 국가에서 구글 검색의 Search Live 기능에도 적용됩니다. (출처: Google 공식 한국어 블로그, 2026.03.26) 한국어로도 실시간 음성 대화가 가능하다는 뜻이지만, 한국어 품질이 영어 대비 어느 수준인지는 구글이 별도 수치를 공개하지 않았습니다.
Q&A 5가지
마치며 — 총평
Gemini 3.1 Flash Live는 실시간 음성 에이전트 분야에서 현시점 기준으로 벤치마크 성능이 가장 앞서 있는 모델입니다. 무료로 테스트할 수 있고, 90개 이상 언어를 지원하며, 배경 소음에서도 지시를 잘 따른다는 강점은 분명합니다. 하지만 “Flash Live”라는 이름만 보고 Gemini 3 계열의 모든 기능을 쓸 수 있다고 착각하면 개발 과정에서 막힙니다.
비동기 함수 호출 미지원, Proactive Audio·Affective Dialogue 삭제, 배치 처리 및 컨텍스트 캐싱 불가, turn coverage 기본값 변경으로 인한 비용 폭증 가능성 — 이 네 가지는 공식 문서를 직접 읽기 전까지는 알기 어려운 항목입니다. 프리뷰 단계이기 때문에 이 사항들은 정식 출시 전에 변경될 수 있습니다. 구글 공식 문서에서 별도 일정을 밝히지 않은 부분입니다.
결론적으로, 단순 음성 Q&A나 안내 봇을 빠르게 프로토타이핑하려는 개발자에게는 지금 당장 써볼 가치가 있습니다. 복잡한 비즈니스 로직을 음성으로 처리하는 에이전트를 만드는 프로젝트라면, 비동기 함수 호출 지원 여부를 확인한 뒤 투자를 결정하는 편이 낫습니다.
📚 본 포스팅 참고 자료
- Google 공식 한국어 블로그 — 제미나이 3.1 플래시 라이브 발표
https://blog.google/intl/ko-kr/company-news/technology/gemini-31-flash-live-kr/ - Google DeepMind 모델 카드 — Gemini 3.1 Flash Live
https://deepmind.google/models/model-cards/gemini-3-1-flash-live/ - Google AI for Developers — API 스펙 및 마이그레이션 가이드
https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-live-preview - Google AI for Developers — 공식 가격 문서
https://ai.google.dev/gemini-api/docs/pricing - Google 개발자 블로그 — Build with Gemini 3.1 Flash Live
https://blog.google/innovation-and-ai/technology/developers-tools/build-with-gemini-3-1-flash-live/
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini 3.1 Flash Live는 현재 프리뷰 버전으로, 요금 구조 및 기능 지원 범위가 정식 출시 시 달라질 수 있습니다. 최신 정보는 Google AI for Developers 공식 문서를 통해 확인하시기 바랍니다.











댓글 남기기