어제 출시됐습니다. 써보니 분명히 빠르고, 분명히 막히는 곳도 있습니다.
90개 이상 언어 지원
비동기 함수 호출 미지원
Gemini 3.1 Flash Live가 뭔지부터
2026년 3월 26일, 구글이 Gemini 3.1 Flash Live를 공개했습니다. 모델 코드는 gemini-3.1-flash-live-preview입니다. 한마디로 정리하면, 실시간 음성 대화에 특화된 오디오-투-오디오(A2A) 모델입니다. 텍스트를 넣고 텍스트를 받는 것이 아니라, 말을 넣으면 말이 나오는 구조입니다.
기존 gemini-2.5-flash-native-audio-preview의 다음 세대입니다. 구글은 이 모델이 Gemini 시리즈 중 “가장 품질이 높은 오디오 모델”이라고 공식 블로그에 직접 표현했습니다. 지금 이 순간 서치 라이브(Search Live)와 제미나이 라이브(Gemini Live) 앱에도 이미 기본 탑재돼 있습니다.
개발자 입장에서는 Google AI Studio에서 프리뷰 형태로 Gemini Live API를 통해 접근할 수 있고, 기업은 Gemini Enterprise for Customer Experience를 통해 사용 가능합니다. 버라이즌(Verizon), 홈디포(The Home Depot), LiveKit 등이 이미 도입해 긍정적인 피드백을 공유했습니다.
💡 공식 발표문과 API 스펙 문서를 같이 놓고 보니 한 가지 눈에 띄는 게 있었습니다. 개인 사용자 화면에서는 “더 자연스러운 대화”가 강조되지만, 개발자 문서에는 이전 모델에서 마이그레이션할 때 바꿔야 하는 항목이 5가지나 명시돼 있습니다. 기대하고 갔다가 당황하는 경우가 생길 수 있습니다.
(출처: 구글 공식 블로그 KR, 2026.03.26)
벤치마크 수치, 직접 확인했습니다
구글이 공식 발표에서 제시한 벤치마크는 두 가지입니다. 첫 번째는 ComplexFuncBench Audio, 두 번째는 Scale AI의 AudioMultiChallenge입니다. 두 지표 모두 공개 리더보드에서 직접 확인할 수 있는 수치입니다.
| 벤치마크 | Gemini 3.1 Flash Live | 이전 모델 | 테스트 항목 |
|---|---|---|---|
| ComplexFuncBench Audio | 90.8% | 하위 | 복잡한 제약 조건 내 다단계 함수 호출 |
| BigBench Audio (thinking high) | 95.9% | — | 오디오 기반 다중 추론 |
| AudioMultiChallenge (thinking on) | 36.1% | 하위 | 실제 대화 환경, 중단·망설임 포함 장기 추론 |
ComplexFuncBench Audio 90.8%는 지금 시점 오디오 기반 다단계 함수 호출 모델 중 가장 높은 수치입니다. 외부 도구를 음성 대화 중에 실행하는 능력이 그만큼 올라갔다는 뜻입니다. AudioMultiChallenge 36.1%는 숫자만 보면 낮아 보이지만, 이 벤치마크 자체가 대화 도중 끊김·망설임·소음이 있는 실제 환경을 시뮬레이션하는 구조라 절대적 수치가 높지 않은 게 정상입니다.
(출처: Google DeepMind 공식 블로그, 2026.03.26 / Scale AI AudioMultiChallenge 리더보드)
생각 모드(Thinking)를 켜면 더 느려질까요?
실시간 대화 모델에 “사고(thinking) 모드”를 켜면 당연히 느려질 것이라고 생각하기 쉽습니다. 막상 공식 문서를 보면 다릅니다.
💡 공식 API 문서에 이렇게 나옵니다. Gemini 3.1의 thinking 설정은 이전 모델과 달리 thinkingBudget 대신 thinkingLevel을 씁니다. 설정값은 minimal, low, medium, high 네 단계이고, 기본값은 minimal입니다. 기본값이 minimal로 설정된 이유는 “지연 시간을 최소화하기 위해서”라고 공식 문서에 직접 나와 있습니다. 즉, 생각 모드를 쓰더라도 minimal 레벨에서는 실시간성이 유지되도록 설계됐습니다.
BigBench Audio 기준 thinking high 레벨에서 95.9% 달성. thinking 레벨을 높게 설정할수록 정확도가 오르지만 응답이 느려질 수 있고, minimal 레벨에서는 실시간 대화 흐름을 유지하면서도 기본 추론이 작동합니다. 쓰임새에 따라 레벨을 골라 쓰는 게 맞습니다.
또 하나 주목할 부분은 대화 흐름 유지 시간이 2배로 늘었다는 점입니다. 구글 공식 블로그에서 이전 모델 대비 “대화의 흐름을 두 배 더 길게 유지할 수 있다”고 밝혔습니다. 모델 스펙 문서 기준 입력 토큰 한도는 131,072 토큰, 출력 토큰 한도는 65,536 토큰입니다. 긴 브레인스토밍 세션에서 맥락이 끊기는 문제가 실질적으로 줄어들 가능성이 있습니다.
실제로 막히는 조건이 있습니다
홍보 자료에서 잘 보이지 않는 부분입니다. Gemini API 공식 마이그레이션 문서에 다음 내용이 직접 나옵니다. 이전 모델(gemini-2.5-flash-native-audio-preview-12-2025)에서 3.1 Flash Live로 넘어올 때 고려해야 할 변경 항목 5가지가 있고, 그중 두 가지는 특히 주의가 필요합니다.
⚠️ 현재 지원 안 되는 기능 (공식 문서 기준)
- 비동기 함수 호출(Async Function Calling) — 현재 미지원. 함수 호출은 동기식으로만 가능. 도구 응답을 보낼 때까지 모델이 응답을 시작하지 않음.
- 능동적 오디오(Proactive Audio) 및 공감형 대화(Affective/Empathetic Conversation) — Gemini 3.1 Flash Live에서 아직 미지원. 코드에서 해당 기능 설정을 삭제해야 함.
비동기 함수 호출이 안 된다는 건 실사용 시 꽤 중요한 제약입니다. 예를 들어 음성 대화 도중 외부 API를 비동기로 호출해서 실시간으로 정보를 가져오는 에이전트 구조가 현재는 작동하지 않습니다. 결과가 올 때까지 대화가 멈춥니다. 실시간 고객 상담 에이전트나 음성 기반 주문 시스템을 만들려는 개발자라면 이 부분을 먼저 확인해야 합니다.
또한 send_client_content는 초기 컨텍스트 기록 시드에서만 지원됩니다. 대화 도중 텍스트를 업데이트하려면 send_realtime_input을 써야 하는데, 이전 코드를 그대로 가져오면 예상치 못한 오류가 납니다.
💡 “SynthID 워터마크”가 모든 출력 오디오에 자동으로 삽입됩니다. 사람이 들어도 감지할 수 없는 방식으로 오디오 파일 자체에 AI 생성 표시가 내장됩니다. 구글은 이를 오정보 확산 방지 목적이라고 공식 설명했습니다. 서비스에서 Gemini 3.1 Flash Live로 생성한 음성을 “사람이 직접 녹음한 것처럼” 활용하는 건 SynthID 정책상 충돌할 수 있습니다.
AI Studio에서 지금 바로 쓰는 방법
개발자가 아니더라도 체험은 가능합니다. ai.studio/live에 구글 계정으로 접속하면 Live 탭에서 gemini-3.1-flash-live-preview 모델을 선택할 수 있습니다. API 키 발급은 aistudio.google.com/apikey에서 무료로 할 수 있습니다.
코드로 연동할 때는 이전 모델에서 마이그레이션하는 경우 아래 체크리스트를 먼저 확인하는 것이 좋습니다.
- 모델 문자열을
gemini-3.1-flash-live-preview로 교체 thinkingBudget→thinkingLevel로 변경 (minimal / low / medium / high)- 대화 중 텍스트 입력은
send_realtime_input사용으로 전환 - 비동기 함수 호출 로직 제거 또는 동기 방식으로 리팩토링
- proactive audio / affective dialog 설정 제거
일반 사용자라면 지금 이미 Gemini 앱을 쓰고 있다면 별도 설정 없이 3.1 Flash Live가 Gemini Live와 Search Live에 탑재돼 있습니다. 200개 이상 국가 및 지역에서 서치 라이브를 자신이 선호하는 언어로 사용할 수 있게 된 것도 이번 출시와 동시에 시작됐습니다.
(출처: 구글 개발자 블로그, 2026.03.26)
가격표, 분 단위로 계산해봤습니다
공식 가격 페이지에 나온 gemini-3.1-flash-live-preview 요금을 분 기준으로 환산하면 다음과 같습니다.
| 구분 | 무료 티어 | 유료 티어 |
|---|---|---|
| 텍스트 입력 | 무료 | $0.75 / 1M 토큰 |
| 오디오 입력 | 무료 | $3.00 / 1M 토큰 또는 $0.005/분 |
| 이미지/영상 입력 | 무료 | $1.00 / 1M 토큰 또는 $0.002/분 |
| 텍스트 출력 | 무료 | $4.50 / 1M 토큰 |
| 오디오 출력 | 무료 | $12.00 / 1M 토큰 또는 $0.018/분 |
분 단위로 보면 오디오 입력은 분당 약 0.5원(약 $0.005), 오디오 출력은 분당 약 1.8원(약 $0.018) 수준입니다. 하루 1시간 음성 대화를 API로 돌리면 입력+출력 합산 약 $1.4 정도입니다. 이 수치의 의미는 간단한 테스트나 소규모 서비스라면 무료 티어 한도 내에서 충분히 돌려볼 수 있다는 뜻입니다.
무료 티어에서는 사용 데이터가 구글 제품 개선에 활용됩니다. 유료 티어로 전환하면 학습에 사용되지 않습니다. 기업 서비스나 개인 정보가 포함된 대화 처리라면 유료 티어 사용이 권장됩니다.
(출처: Gemini API 공식 가격 페이지, 2026년 3월 기준)
자주 나오는 질문 5가지
Q1. Gemini 3.1 Flash Live를 지금 당장 무료로 쓸 수 있나요?
네, Google AI Studio에서 API 키를 발급받으면 무료 티어 한도 내에서 즉시 사용 가능합니다. 다만 무료 티어 데이터는 구글 제품 개선에 활용될 수 있고, 요금제 일반 사용자는 Gemini 앱에서 별도 설정 없이 이미 사용 중입니다.
Q2. 이전 모델(gemini-2.5-flash-native-audio)을 계속 써도 되나요?
gemini-2.5-flash-lite-preview-09-2025는 2026년 3월 31일 종료 예정입니다. gemini-2.5-flash-native-audio-preview-12-2025에 대해서는 아직 종료 일정이 공식 발표되지 않았습니다. 하지만 3.1 Flash Live로 마이그레이션하는 것이 구글의 권장 방향이고, 이유는 아직 공개되지 않았습니다.
Q3. 한국어로 실시간 대화가 잘 되나요?
공식 발표 기준 90개 이상 언어를 지원하며 한국어가 포함됩니다. 서치 라이브의 글로벌 200개 이상 국가 확대도 이번 출시와 동시에 이뤄졌습니다. 다만 실제 한국어 음향 뉘앙스 처리 품질에 대한 공식 수치는 별도로 발표되지 않았습니다.
Q4. 배치(Batch) API나 컨텍스트 캐싱도 지원하나요?
공식 모델 스펙 기준 Batch API 미지원, 캐싱 미지원입니다. 실시간 대화 모델의 특성상 두 기능 모두 현재 지원 계획이 공개된 바 없습니다. 구조화된 출력(Structured Output)도 현재 지원되지 않습니다.
Q5. SynthID 워터마크가 삽입되면 음질에 영향이 있나요?
구글은 SynthID가 “감지 불가능한(imperceptible)” 방식으로 삽입된다고 명시하고 있습니다. 사람이 귀로 듣는 방식으로는 구분이 어렵도록 설계됐습니다. 다만 특정 포렌식 도구나 AI 탐지 시스템에서는 감지될 수 있습니다. 모델 카드에서 자세한 내용을 확인할 수 있습니다.
마치며 — 실시간 음성 AI 시대, 시작 지점에 서 있습니다
솔직히 말하면, 일반 사용자 입장에서는 “Gemini 앱이 좀 더 자연스러워졌다” 정도의 변화로 느껴질 수 있습니다. 하지만 개발자 입장에서는 음성 에이전트 파이프라인을 다시 설계해야 하는 이유가 생겼습니다. 마이그레이션 전에 공식 가이드를 한 번 쭉 읽어보는 걸 권합니다.
출시된 지 하루도 안 됐습니다. 실사용 피드백이 쌓이면 지금은 보이지 않는 장단점이 더 드러날 겁니다. 지금 시점에서 확인 가능한 건 공식 수치와 공식 제약 사항입니다. 그것만큼은 위에 정리한 내용이 현재 공식 문서 기준으로 가장 정확합니다.
📎 본 포스팅 참고 자료
본 포스팅은 2026년 3월 26~27일 기준 공식 발표 자료를 바탕으로 작성됐습니다.
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.











댓글 남기기