2026.03.26 출시
gemini-3.1-flash-live-preview 기준

Gemini 3.1 Flash Live, 1위 수치 뒤에 빠진 것들

2026년 3월 26일 구글이 공개한 Gemini 3.1 Flash Live는 실시간 음성 AI 분야에서 벤치마크 1위를 차지했습니다. 그런데 막상 공식 문서를 열어보면, 이전 버전에 있던 기능 몇 가지가 조용히 사라져 있습니다. 점수가 올라가는 동안 개발자가 잃는 것도 있다는 뜻입니다.

90.8%

ComplexFuncBench

36.1%

Audio MultiChallenge

200+

지원 국가·지역

15분

오디오 세션 한도

Gemini 3.1 Flash Live가 뭔지 먼저 정리하면

Gemini 3.1 Flash Live는 구글이 2026년 3월 26일 공개한 실시간 음성·영상 AI 모델입니다. 정식 명칭은 gemini-3.1-flash-live-preview이고, Gemini API의 Live API를 통해 개발자가 바로 쓸 수 있습니다. 구글은 “지금까지 낸 오디오 모델 중 품질이 가장 높다”고 했습니다. (출처: Google 공식 블로그, 2026.03.26)

아키텍처 측면에서는 Gemini 3 Pro를 기반으로 만들어졌습니다. 공식 모델 카드에 “Gemini 3.1 Flash Live is based on Gemini 3 Pro”라고 명시돼 있습니다. 즉, 플래시 라이브라는 이름에서 느껴지는 경량 모델과는 다르게, 상위 모델의 추론 구조를 그대로 가져온 뒤 실시간 오디오 처리에 최적화한 형태입니다. (출처: Google DeepMind 모델 카드, 2026.03.26)

지원 입력은 텍스트, 이미지, 오디오, 비디오 네 가지이고, 출력은 텍스트와 오디오입니다. 컨텍스트 창은 입력 131,072 토큰, 출력 65,536 토큰입니다. 한국어를 포함해 97개 언어를 지원하고, 오디오 출력 언어는 입력 맥락에 따라 자동으로 선택됩니다.

▲ 목차로 돌아가기

벤치마크 1위, 그런데 두 번째 점수를 봐야 합니다

구글이 내세운 핵심 수치는 ComplexFuncBench Audio 기준 90.8%입니다. 이 벤치마크는 여행 예약처럼 다단계 함수 호출이 필요한 복잡한 작업을 오디오 입력으로 수행하는 능력을 측정합니다. 실시간 음성 AI 중에서 현재 가장 높은 점수이고, 이 점수 자체는 사실입니다. (출처: Google 공식 블로그, 2026.03.26)

💡 공식 발표문과 벤치마크 원본을 같이 놓고 보니 이런 차이가 보였습니다

Audio MultiChallenge에서 Gemini 3.1 Flash Live는 36.1%를 기록했습니다. 그런데 Ars Technica가 직접 지적한 것처럼, 실시간 대화가 목적이 아닌 일반 오디오 모델들은 이 벤치마크에서 50%를 훌쩍 넘깁니다. 즉, “실시간 대화 모델 중 1위”라는 말과 “오디오 이해력 1위”는 전혀 다른 이야기입니다. (출처: Ars Technica, 2026.03.27)

Audio MultiChallenge는 Scale AI가 운영하는 벤치마크로, 말 중간의 끊김, 머뭇거림, 말 돌리기 같은 실제 대화의 잡음이 포함된 상황에서 긴 맥락의 명령을 얼마나 잘 따르는지를 측정합니다. Gemini 3.1 Flash Live는 이 테스트에서 thinking 기능을 켰을 때 36.1%로 실시간 오디오 모델 중 1위를 기록했습니다. 레이턴시보다 정확도가 중요한 상황이라면 이 수치를 함께 봐야 합니다.

결론을 요약하면 이렇습니다. 함수 호출 정확도 — 단연 1위. 복잡한 실제 대화에서의 이해력 — 아직 50%를 못 넘기는 수준. 이 두 가지를 같이 알고 있어야 실제 서비스에 도입할 때 적합한 사용 사례를 고를 수 있습니다.

벤치마크	Gemini 3.1 Flash Live	비교 기준
ComplexFuncBench Audio	90.8%	실시간 오디오 모델 중 1위
Audio MultiChallenge (thinking on)	36.1%	비대화형 모델은 50%+ 달성
BigBench Audio	공개 점수 있음	Artificial Analysis 외부 평가

(출처: Google 공식 블로그 / Ars Technica, 2026.03.26~27)

▲ 목차로 돌아가기

이전 버전에서 사라진 기능 3가지

구글 공식 API 문서에는 Gemini 3.1 Flash Live와 이전 모델인 Gemini 2.5 Flash Live Preview를 비교한 표가 있습니다. 발표 블로그에서는 이 부분을 강조하지 않았지만, 개발자라면 반드시 짚고 넘어가야 할 내용들이 담겨 있습니다. (출처: Google AI 개발자 문서 Live Guide, 2026.03.26)

① 비동기 함수 호출이 없어졌습니다

2.5 Flash Live에서는 함수가 실행되는 동안 모델이 사용자와 계속 대화할 수 있었습니다. behavior: NON_BLOCKING으로 설정하면 도구 응답이 오기 전에도 모델이 먼저 응답을 시작하는 방식입니다. 3.1 Flash Live에서는 이 기능이 사라졌습니다. 함수 호출은 순차적으로만 가능하고, 도구 응답이 돌아오기 전까지 모델은 응답을 시작하지 않습니다. 실시간 느낌이 중요한 음성 에이전트라면 이 부분이 체감 속도에 영향을 줄 수 있습니다.

② 감정 적응 대화(Affective Dialogue)와 선제 응답(Proactive Audio)이 빠졌습니다

2.5 Flash Live는 사용자의 어조나 감정 상태에 맞춰 응답 톤을 조정하는 Affective Dialogue 기능과, 대화와 무관한 소음에 자동으로 응답하지 않는 Proactive Audio 기능을 지원했습니다. 3.1 Flash Live에는 두 기능 모두 없습니다. 공식 마이그레이션 가이드에 “이 기능들을 코드에서 제거하라”고 명시돼 있습니다. (출처: Google AI Live Guide 모델 비교 표, 2026.03.26)

③ ThinkingBudget에서 ThinkingLevel로 바뀌었는데, 기본값이 달라졌습니다

2.5는 thinkingBudget으로 토큰 수를 직접 지정했지만, 3.1은 thinkingLevel로 바뀌었습니다. 선택지는 minimal, low, medium, high 네 단계입니다. 여기서 중요한 건, 기본값이 minimal이라는 점입니다. 공식 문서는 이 기본값이 “가장 낮은 레이턴시를 위한 최적화”라고 설명하는데, 뒤집어 말하면 별도 설정 없이 쓰면 추론 깊이가 가장 얕은 모드로 작동한다는 뜻입니다. 코드를 그냥 가져다 쓰면 기대보다 단순한 답변이 나올 수 있습니다.

▲ 목차로 돌아가기

15분 한도와 2분 한도, 실제로 어떤 의미인가

공식 API 문서에는 세션 지속 시간 한도가 명확히 적혀 있습니다. 오디오 전용 세션은 최대 15분, 오디오와 비디오를 동시에 쓰는 세션은 최대 2분입니다. (출처: Google AI Live API 가이드, Limitations 섹션, 2026.03.26)

15분은 고객 상담 한 건을 처리하기에는 충분합니다. 하지만 에이전트가 긴 대화를 계속 이어가야 하는 시나리오, 예를 들어 의료 상담이나 학습 도우미처럼 한 시간 이상 대화가 필요한 경우라면 얘기가 달라집니다. 구글은 세션 관리 기법을 통해 시간 제한 없이 연장할 수 있다고 설명하는데, 이를 위해서는 별도로 세션 재개(Session Resumption) 로직을 구현해야 합니다.

💡 비디오 세션 2분 한도가 유독 짧게 느껴지는 이유

Search Live처럼 카메라로 사물을 가리키며 대화하는 시나리오를 생각하면, 2분 세션은 실제 사용 흐름에서 꽤 빨리 끊깁니다. 공식 문서가 “다양한 세션 관리 기술로 무제한 연장 가능”이라고 안내하지만, 비디오 스트림은 오디오보다 토큰 소모가 훨씬 빠릅니다. 연장 로직을 따로 짜지 않으면 2분마다 연결이 끊기는 경험을 하게 됩니다.

참고로, 컨텍스트 창은 128,000 토큰입니다. 오디오만 쓸 때는 이 한도가 세션 시간보다 먼저 찰 가능성이 낮지만, 비디오를 동시에 보내면 프레임당 소모 토큰이 빠르게 누적됩니다. API 문서는 비디오 입력을 초당 최대 1프레임으로 제한하도록 권고하는데, 그럼에도 2분 세션에서 컨텍스트와 시간 중 무엇이 먼저 한계에 닿는지는 구현 방식에 따라 달라집니다.

▲ 목차로 돌아가기

공식 발표문과 실제 API 문서를 같이 보면 보이는 차이

구글의 공식 블로그 게시물과 API 레퍼런스를 나란히 두면 흥미로운 차이가 있습니다. 발표 블로그는 “가장 높은 품질의 오디오 모델”, “2배 더 긴 대화 기억”, “SynthID 워터마크”를 강조합니다. 반면 개발자 API 문서에는 Batch API, 이미지 생성, 구조화 출력, 캐싱, URL 컨텍스트가 모두 “Not supported”로 표시돼 있습니다.

이게 왜 중요하냐면, 기존에 Gemini API로 앱을 만들어 본 개발자들은 구조화 출력(Structured Output)을 자주 씁니다. JSON 형태로 응답을 받아 데이터베이스에 저장하거나 다른 서비스로 넘기는 패턴이 흔한데, 3.1 Flash Live에서는 이게 안 됩니다. 오디오 응답만 나오기 때문에, 텍스트가 필요하다면 출력 오디오 전사(Output Audio Transcription) 기능을 별도로 켜야 합니다. (출처: Google AI 개발자 문서, 2026.03.26)

💡 모델 아키텍처와 실제 지원 범위를 같이 보면 이게 이해됩니다

Gemini 3.1 Flash Live는 Gemini 3 Pro를 기반으로 하지만, 실시간 저레이턴시 오디오에 최적화하는 과정에서 범용 모델에 있던 여러 기능을 꺼놓은 상태로 출시된 것입니다. 프리뷰 딱지가 붙어 있는 이유이기도 합니다. “Gemini 3 Pro 기반이니까 다 될 것”이라는 전제는 API 레퍼런스 앞에서 무너집니다.

SynthID 워터마킹은 이번 모델의 주목할 만한 특징입니다. 3.1 Flash Live가 생성하는 모든 오디오에는 사람 귀에 들리지 않는 워터마크가 자동으로 삽입됩니다. AI가 생성한 음성을 사람 목소리로 위장하려 할 때 탐지가 가능한 구조인데, Ars Technica는 이 기능이 오히려 “AI인지 모르고 통화했다”는 경험을 얼마나 막아줄 수 있을지는 별개 문제라고 지적했습니다. 탐지 도구를 쓰는 사람은 소수이기 때문입니다. (출처: Ars Technica, 2026.03.27)

▲ 목차로 돌아가기

누가 써야 하고, 누가 아직 기다려야 하는가

지금 당장 Gemini 3.1 Flash Live를 도입하기에 좋은 시나리오와 그렇지 않은 시나리오를 정리하면 이렇습니다. 판단 기준은 공식 API 문서에서 확인한 지원·미지원 목록입니다.

✅ 지금 쓰기 적합한 경우

고객센터 음성 에이전트 (15분 내 통화)
실시간 음성 검색·Q&A 서비스
다국어 음성 인터페이스 (97개 언어)
복잡한 함수 호출이 필요한 음성 자동화
Verizon·Home Depot처럼 고객 경험 플랫폼

⏳ 아직 기다리는 게 나은 경우

비동기 함수 호출이 필요한 에이전트
오디오 응답을 JSON으로 받아야 하는 파이프라인
15분 이상 연속 세션 필요 (추가 구현 요구)
감정·어조 적응 대화가 핵심인 앱
API 가격을 확정해야 하는 프로젝트 (미공개)

API 가격은 아직 공개되지 않았습니다. DataNorth AI 보도에 따르면 같은 달 출시된 Gemini 3.1 Flash-Lite는 입력 100만 토큰당 0.25달러로 책정돼 있지만, Flash Live에 대해서는 구글이 공식 답변을 내놓지 않은 상태입니다. 프리뷰 기간 동안은 일부 무료 접근이 가능할 가능성이 높지만, 상용 서비스 전환 시점의 비용은 직접 확인이 필요합니다. (출처: DataNorth AI, 2026.03.27)

▲ 목차로 돌아가기

Q&A 5가지

Q1. Gemini 3.1 Flash Live는 지금 바로 무료로 쓸 수 있나요?

Google AI Studio에서 스트림 모드로 실시간 오디오 대화를 테스트할 수 있습니다. 다만 API를 통한 상용 수준의 활용과 정확한 과금 기준은 아직 공개되지 않았습니다. 구글이 공식 가격을 발표하기 전까지는 프리뷰 조건으로 접근하는 게 현실적입니다.

Q2. Gemini Live 앱에서 한국어로 쓸 수 있나요?

한국어(BCP-47: ko)는 97개 지원 언어 중 하나입니다. Gemini Live 앱(Android·iOS)과 Search Live 모두 200개 이상 국가·지역으로 확장됐고, 언어는 대화 맥락에 따라 자동 감지됩니다. 단, 언어 코드를 명시적으로 설정하는 기능은 현재 API에서 지원하지 않습니다.

Q3. 이전에 Gemini 2.5 Flash Live로 만든 앱을 바로 전환할 수 있나요?

단순히 모델 문자열만 바꾸는 것으로는 충분하지 않습니다. thinkingBudget을 thinkingLevel로 교체해야 하고, 비동기 함수 호출·Affective Dialogue·Proactive Audio 설정 코드는 제거해야 합니다. 또한 send_client_content 사용 방식이 달라졌고, 서버 이벤트 파싱 로직도 수정이 필요합니다. 공식 마이그레이션 가이드를 먼저 읽는 걸 권장합니다.

Q4. SynthID 워터마크가 있으면 AI 음성인지 항상 알 수 있나요?

사람 귀에는 들리지 않습니다. 탐지하려면 별도의 SynthID 검출 도구가 필요합니다. 구글이 SynthID를 오픈소스로 공개했지만, 일반 사용자가 이를 통해 전화 통화를 실시간 검증하는 흐름은 현재 없습니다. 워터마크는 AI 생성 콘텐츠 증거 보존 용도로 더 실용적입니다.

Q5. thinkingLevel을 high로 올리면 정확도가 크게 올라가나요?

정확도는 올라가지만 레이턴시도 함께 늘어납니다. 공식 문서는 기본값 minimal이 “최저 레이턴시를 위한 최적화”라고 명시합니다. Audio MultiChallenge 36.1% 점수 역시 thinking을 켰을 때 기준이고, thinking 없이는 더 낮을 가능성이 있습니다. 실제 서비스에서는 대화 속도와 정확도 사이에서 직접 테스트해 최적값을 잡아야 합니다.

▲ 목차로 돌아가기

마치며

Gemini 3.1 Flash Live는 실시간 음성 AI 분야에서 확실한 성능 진전입니다. 복잡한 함수 호출 90.8%, 배경 소음 필터링 향상, 대화 컨텍스트 2배 연장은 공식 수치로 뒷받침되는 개선입니다. 그런데 같은 공식 문서에서 비동기 함수 호출 제거, 감정 적응 대화 삭제, 오디오 15분·비디오 2분 세션 한도, 구조화 출력 미지원을 함께 확인할 수 있습니다.

솔직히 말하면, 프리뷰 딱지가 붙은 건 이유가 있습니다. 기능 범위와 가격이 아직 확정되지 않은 상태에서 서비스를 설계하는 건 조심스러운 일입니다. 반면 Google AI Studio에서 무료로 바로 테스트해볼 수 있으니, 실제 시나리오를 직접 돌려보는 게 문서보다 빠른 판단 기준이 될 겁니다.

어느 모델이든 1위 수치가 전부가 아닙니다. 어떤 벤치마크에서 1위인지, 그리고 그 아래에 무엇이 빠져 있는지를 같이 보는 습관이 실제 프로젝트에서 피해를 줄여줍니다.

본 포스팅 참고 자료

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 작성 기준일: 2026년 3월 30일 / 모델: gemini-3.1-flash-live-preview (March 2026). AI 서비스 특성상 업데이트로 내용이 달라질 수 있으므로 중요한 결정 전에는 공식 문서를 직접 확인하시길 권장합니다.

Gemini 3.1 Flash Live, 1위 수치 뒤에 빠진 것들

Gemini 3.1 Flash Live가 뭔지 먼저 정리하면

벤치마크 1위, 그런데 두 번째 점수를 봐야 합니다

이전 버전에서 사라진 기능 3가지

① 비동기 함수 호출이 없어졌습니다

② 감정 적응 대화(Affective Dialogue)와 선제 응답(Proactive Audio)이 빠졌습니다

③ ThinkingBudget에서 ThinkingLevel로 바뀌었는데, 기본값이 달라졌습니다

15분 한도와 2분 한도, 실제로 어떤 의미인가

공식 발표문과 실제 API 문서를 같이 보면 보이는 차이

누가 써야 하고, 누가 아직 기다려야 하는가

Q&A 5가지

마치며

댓글 남기기응답 취소

최신 글

카테고리

Tags

Gemini 3.1 Flash Live, 1위 수치 뒤에 빠진 것들

Gemini 3.1 Flash Live가 뭔지 먼저 정리하면

벤치마크 1위, 그런데 두 번째 점수를 봐야 합니다

이전 버전에서 사라진 기능 3가지

① 비동기 함수 호출이 없어졌습니다

② 감정 적응 대화(Affective Dialogue)와 선제 응답(Proactive Audio)이 빠졌습니다

③ ThinkingBudget에서 ThinkingLevel로 바뀌었는데, 기본값이 달라졌습니다

15분 한도와 2분 한도, 실제로 어떤 의미인가

공식 발표문과 실제 API 문서를 같이 보면 보이는 차이

누가 써야 하고, 누가 아직 기다려야 하는가

Q&A 5가지

마치며

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기