2026.03.26 출시 기준
gemini-3.1-flash-live-preview

Gemini 3.1 Flash Live,
빠르다는 말의 조건이 있습니다

구글이 3월 26일 출시한 실시간 음성 AI 모델인데, “최고 품질”이라는 수식어 뒤에 공식 문서가 조용히 적어둔 제약들이 꽤 됩니다. 직접 확인했습니다.

36.1%

AudioMultiChallenge 점수
(Scale AI, thinking 모드 기준)

90.8%

ComplexFuncBench Audio
(이전 모델 대비 1위)

128K

토큰 컨텍스트 창
(네이티브 오디오 기준)

Gemini 3.1 Flash Live가 무엇인지부터

구글이 2026년 3월 26일 공개한 Gemini 3.1 Flash Live는 실시간 음성 대화에 특화된 모델입니다. 정식 명칭은 “Gemini 3.1 Flash with Native Audio Capabilities (Flash Live)”이고, 개발자용 API 모델 ID는 gemini-3.1-flash-live-preview입니다. (출처: Google DeepMind Model Card, 2026.03.26)

아키텍처 측면에서 중요한 점이 하나 있습니다. 공식 모델 카드에 “Gemini 3.1 Flash Live is based on Gemini 3 Pro”라고 딱 나와 있습니다. Flash라는 이름 때문에 가벼운 별도 모델이라고 생각하기 쉬운데, 실제로는 Gemini 3 Pro 구조를 기반으로 실시간 음성 최적화를 얹은 형태입니다. 가볍게 따로 만든 게 아닙니다.

입출력 스펙은 이렇습니다. 입력으로는 오디오, 이미지, 동영상, 텍스트를 받고 컨텍스트 창은 128K 토큰입니다. 출력은 오디오와 텍스트이며 최대 64K 토큰까지 생성합니다. 오디오 포맷은 입력 16kHz·출력 24kHz 기준 16비트 PCM으로 고정입니다. (출처: Gemini Live API 공식 문서, ai.google.dev)

💡 공식 발표문과 모델 카드를 같이 놓고 보니 이런 차이가 보였습니다. 구글이 “Flash”라고 부르는 모델들이 항상 가벼운 별도 설계가 아닌 경우가 있는데, 이번 Flash Live가 정확히 그 케이스입니다. Gemini 3 Pro 기반이라는 점은 성능 기대치를 올리는 동시에, 비용 구조에도 영향을 줄 수 있습니다.

▲ 목차로 돌아가기

벤치마크 수치, 1위라는 말의 실제 맥락

구글은 세 가지 벤치마크 결과를 공식 발표문에서 제시했습니다. 숫자만 보면 인상적이지만, Ars Technica가 짚어낸 맥락을 같이 봐야 그림이 달라집니다.

벤치마크	점수	비고
ComplexFuncBench Audio	90.8%	실시간 음성 모델 중 1위
AudioMultiChallenge (Scale AI)	36.1%	thinking 모드 활성화 기준
Big Bench Audio	발표문 차트 참조	1,000개 오디오 클립 기준

여기서 짚어볼 부분이 AudioMultiChallenge 36.1% 수치입니다. Ars Technica 보도(2026.03.26)에 이런 문장이 있습니다. “Audio models that are not designed to operate conversationally can reach scores over 50 percent in the MultiChallenge.” 그러니까 실시간 대화용이 아닌 일반 오디오 모델들도 이 벤치마크에서 50%를 넘기는 경우가 있다는 뜻입니다. 36.1%가 실시간 음성 모델 중에서는 1위지만, 벤치마크 절대 점수 자체가 낮다는 사실도 함께 읽어야 합니다.

💡 “실시간 모델 중 1위”라는 수식어는 비교 범주를 실시간 대화 모델로 좁혔을 때 성립합니다. 구글 공식 블로그에 나온 이 조건을 빼고 보면 수치가 달리 읽힙니다.

반면 ComplexFuncBench Audio 90.8%는 실질적인 의미가 큽니다. 이 벤치마크는 여행 예약처럼 순서가 중요한 다단계 함수 호출을 얼마나 정확하게 수행하는지를 음성 입력 환경에서 측정합니다. (출처: ComplexFuncBench GitHub, zai-org) 실제 고객 서비스 에이전트나 예약 봇 구축에 쓸 때 직접 관련되는 수치입니다.

▲ 목차로 돌아가기

이전 모델과 달라진 것들 — 공식 비교표 기준

Gemini 2.5 Flash Live Preview에서 이 모델로 넘어올 때 바뀌는 것들이 있습니다. 구글 공식 Live API 문서(ai.google.dev/gemini-api/docs/live-guide)에 비교표가 있는데, 올라간 것만 있는 게 아닙니다.

✅ 새로 생긴 것

thinking 깊이 제어: thinkingLevel을 minimal / low / medium / high 중에서 선택 가능. 기본값은 lowest latency를 위해 minimal로 설정됩니다.
멀티 콘텐츠 파트 동시 수신: 서버 이벤트 하나에 inlineData와 트랜스크립트를 동시에 담아 보냅니다. 이전 모델은 파트를 개별 이벤트로 따로 보냈습니다.
컨텍스트 2배 유지: 제미나이 라이브에서 대화 흐름을 이전 대비 두 배 더 길게 유지합니다. (출처: Google Gemini Drop March 2026 블로그, 2026.03.27)

❌ 이 모델에서 지원 안 되는 것

비동기 함수 호출(NON_BLOCKING): 2.5 Flash Live Preview에서는 함수가 실행되는 동안 모델이 계속 대화할 수 있었습니다. 3.1 Flash Live에서는 순차 처리만 지원합니다. 함수 응답을 보내기 전까지 모델이 응답을 시작하지 않습니다.
Proactive Audio: 관련 없는 입력에 모델이 스스로 응답을 생략하는 기능. 3.1 Flash Live에서는 미지원입니다.
Affective Dialog: 입력 표정이나 톤에 맞게 응답 스타일을 자동 조정하는 기능. 마찬가지로 미지원입니다.
send_client_content 제한: 대화 중 텍스트를 send_client_content로 추가 전송할 수 없습니다. 초기 컨텍스트 설정 용도로만 사용하고, 실시간 텍스트 업데이트는 send_realtime_input으로만 가능합니다.

💡 비동기 함수 호출 미지원은 실제 에이전트 개발자에게 민감한 부분입니다. 외부 API 호출이 필요한 음성 에이전트에서 응답 지연이 생길 수밖에 없고, 이를 이전 모델에서 NON_BLOCKING으로 해결하던 개발자라면 마이그레이션 전에 반드시 확인해야 합니다.

▲ 목차로 돌아가기

실제로 쓸 때 걸리는 제약들

공식 Live API 문서의 Limitations 섹션에 명시된 내용입니다. 직접 확인했습니다.

제약 1세션 시간 한도

오디오 전용 세션은 15분, 오디오+비디오 혼합 세션은 2분입니다. “세션 관리 기법”을 사용하면 연장이 가능하다고 나와 있지만, 기본 상태로는 이 한도 안에서만 동작합니다. 특히 비디오 포함 세션의 2분은 꽤 짧습니다.

제약 2응답 형식 고정

네이티브 오디오 모델은 AUDIO 응답 형식만 지원합니다. 텍스트로 받으려면 출력 오디오 트랜스크립션 기능을 별도로 켜야 합니다. 직접 텍스트 응답 모달리티를 지정하면 작동하지 않습니다.

제약 3클라이언트 인증 방식 주의

기본적으로 서버 간(server-to-server) 인증만 지원합니다. 프론트엔드에서 직접 Live API에 연결하는 클라이언트 사이드 방식을 쓰려면 반드시 임시 토큰(ephemeral token)을 사용해야 합니다. API 키를 프론트에 그대로 노출하면 보안 리스크가 생깁니다.

제약 4비디오 입력 속도 상한

비디오 프레임 입력은 초당 최대 1프레임(1 FPS)입니다. 실시간 영상 스트리밍처럼 사용할 수 없고, 정적 프레임 캡처 수준으로만 동작합니다. 화상통화 분석 같은 용도로 쓰려면 이 제약을 감안해야 합니다.

▲ 목차로 돌아가기

SynthID 워터마크, 왜 이번에 넣었나

3.1 Flash Live가 출력하는 모든 오디오에는 SynthID 워터마크가 자동으로 들어갑니다. 사람 귀에는 들리지 않는 방식으로 오디오 데이터에 직접 내장됩니다. (출처: 구글 공식 블로그, 2026.03.26)

이 기능이 이번에 특히 강조된 이유가 있습니다. Ars Technica는 이렇게 짚었습니다. “Gemini 3.1 Flash Live should sound more like a person, to the point that Google felt it was time to integrate AI flags.” 모델이 사람처럼 들릴 정도가 됐기 때문에 AI임을 식별하는 수단이 필요해졌다는 뜻입니다. 더 자연스러워질수록 오용 가능성도 커집니다.

SynthID는 워터마크를 감지해 AI 생성 음성인지 여부를 판별할 수 있게 해주지만, 듣는 사람이 실시간으로 AI라는 사실을 알아채는 데에는 도움이 되지 않습니다. 판별은 별도의 검출 도구를 쓸 때만 가능합니다. 버라이즌, 홈디포 같은 기업들이 이 모델을 고객 서비스에 적용하고 있는데, 다음 콜센터 상담이 AI일 수 있다는 점은 이미 현실입니다.

💡 SynthID를 “안전 기능”으로만 보면 그림이 절반입니다. 발표 시점에 구글이 이 기능을 굳이 전면에 내세운 건, 역설적으로 이 모델의 사람 목소리 재현 수준이 이전과 달라졌다는 신호이기도 합니다.

▲ 목차로 돌아가기

Gemini Live 사용자 입장에서 달라지는 것

개발자가 아니라 제미나이 앱이나 서치 라이브를 그냥 쓰는 입장에서도 달라지는 게 있습니다. 구글은 이번 Gemini Drop(3월 업데이트)을 통해 3.1 Flash Live를 일반 사용자 제품에도 적용했습니다.

제미나이 라이브에서 대화 맥락을 이전 대비 두 배 더 길게 유지합니다. 긴 브레인스토밍이나 연속 대화 중에 “아까 뭐라고 했죠?”를 반복할 일이 줄어듭니다. 응답 속도도 빨라졌습니다. (출처: Google Gemini Drop 블로그, 2026.03.27)

서치 라이브는 이번 주부터 글로벌 확대를 시작합니다. 200개 이상 국가에서 자신이 선호하는 언어로 실시간 구글 검색을 음성으로 쓸 수 있게 됩니다. 한국어 포함입니다. 공식 문서 기준 지원 언어 97개에 한국어(ko)가 포함됩니다.

다만 여기에도 조건이 있습니다. 서치 라이브의 글로벌 확장은 구글 AI 모드(AI Mode) 안의 기능입니다. AI 모드 자체가 모든 지역에서 동시에 열리는 게 아니라 단계적으로 확대됩니다. 구글이 한국 서비스 정식 출시 일정을 별도로 밝히지 않은 상태입니다.

▲ 목차로 돌아가기

자주 묻는 것들 — Q&A

＋

Google AI Studio에서 API 키를 발급받으면 무료 티어로 접근할 수 있습니다. 다만 무료 티어에는 분당 요청 수 제한이 있고, 모델 ID는 gemini-3.1-flash-live-preview입니다. 프리뷰 단계이므로 정식 출시 이후 요금 체계가 변경될 수 있습니다. 현재 기준 Flash 계열 모델의 무료 티어는 분당 15 RPM 내외입니다. (출처: Google AI Studio 공식 문서)

이전에 쓰던 Gemini 2.5 Flash Live 코드를 그대로 쓸 수 있나요?
＋

바로 교체하면 오류가 날 가능성이 높습니다. thinking 파라미터가 thinkingBudget에서 thinkingLevel로 바뀌었고, send_client_content 사용 방식도 달라졌습니다. 구글이 공식 마이그레이션 가이드를 Live API 문서 내에 별도로 제공합니다. (출처: ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-live-preview#migrating)

한국어로 쓸 때 품질이 괜찮은가요?
＋

공식 문서 기준 Live API는 97개 언어를 지원하고, 한국어(ko)가 명시돼 있습니다. 언어 코드를 별도로 지정하지 않아도 모델이 자동으로 언어를 감지합니다. 다만 언어별 음색(voice) 품질이 동일하다고 구글이 보장하지는 않고, 한국어 전용 품질 벤치마크가 공개된 게 없습니다. 실제 품질은 직접 AI Studio에서 테스트해보는 게 가장 정확합니다.

＋

ComplexFuncBench(다단계 함수 호출)에서는 3.1 Flash Live가 실시간 음성 모델 중 현재 1위입니다. GPT-4o mini Realtime과는 slashdot 비교 자료에서 나란히 언급되지만 공식 직접 비교 수치는 아직 없습니다. 비용 면에서는 Gemini Flash 계열이 일반적으로 GPT-4o보다 저렴한 경향이 있고, 멀티모달(비디오+오디오) 동시 입력 지원 여부도 선택 기준이 됩니다.

thinking 모드를 켜면 응답이 느려지나요?
＋

네, 그래서 기본값이 minimal로 설정돼 있습니다. 공식 문서에 “Defaults to minimal to optimize for lowest latency”라고 나와 있습니다. thinking을 high로 올리면 정확도가 올라갈 수 있지만 응답 지연이 늘어납니다. AudioMultiChallenge 36.1% 점수도 thinking 모드 활성화 기준이라는 점을 감안해야 합니다.

마치며 — 이 모델이 선택지에 들어오는 조건

Gemini 3.1 Flash Live는 실시간 음성 에이전트를 만들 때 현재 공개된 선택지 중에서 다단계 함수 호출 정확도와 다국어 지원 폭 면에서 주목할 만합니다. 특히 외부 API 호출이 많은 고객 서비스·예약·안내 시스템 쪽은 ComplexFuncBench 90.8% 수치가 실질적인 의미를 가집니다.

다만 이번 버전에서 비동기 함수 호출이 빠진 건 개발자 입장에서 아쉬운 부분입니다. 외부 API 호출 중에도 대화가 끊기지 않게 하려면 2.5 Flash Live가 오히려 나은 경우가 있습니다. “새 모델이면 무조건 낫다”는 전제로 바로 교체하기보다는, 지금 만드는 에이전트가 동기 처리로 충분한지 먼저 따져보는 게 맞습니다.

AudioMultiChallenge 36.1%라는 숫자도 편하게 봐야 합니다. 실시간 모델 기준 1위지만, 절대 점수가 낮다는 사실은 자연스러운 대화 중 발생하는 망설임·말 겹침 처리가 아직 완전하지 않다는 뜻입니다. 구글이 SynthID를 이 시점에 넣은 건 성능 향상의 이면이 어떤 방향인지를 가장 잘 보여주는 단서입니다.

▲ 목차로 돌아가기

📌 본 포스팅 참고 자료

본 포스팅은 2026년 3월 30일 기준으로 공개된 공식 문서와 발표 자료를 바탕으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 최신 정보는 Google AI for Developers 공식 문서에서 확인하세요.

Gemini 3.1 Flash Live,
빠르다는 말의 조건이 있습니다

Gemini 3.1 Flash Live가 무엇인지부터

벤치마크 수치, 1위라는 말의 실제 맥락

이전 모델과 달라진 것들 — 공식 비교표 기준

실제로 쓸 때 걸리는 제약들

SynthID 워터마크, 왜 이번에 넣었나

Gemini Live 사용자 입장에서 달라지는 것

자주 묻는 것들 — Q&A

마치며 — 이 모델이 선택지에 들어오는 조건

댓글 남기기응답 취소

최신 글

카테고리

Tags

Gemini 3.1 Flash Live, 빠르다는 말의 조건이 있습니다

Gemini 3.1 Flash Live가 무엇인지부터

벤치마크 수치, 1위라는 말의 실제 맥락

이전 모델과 달라진 것들 — 공식 비교표 기준

실제로 쓸 때 걸리는 제약들

SynthID 워터마크, 왜 이번에 넣었나

Gemini Live 사용자 입장에서 달라지는 것

자주 묻는 것들 — Q&A

마치며 — 이 모델이 선택지에 들어오는 조건

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기