2026.03.27 출시 기준
Google 공식 문서 기반
Preview 단계

Gemini 3.1 Flash Live,
3가지 수치로 직접 확인했습니다

구글이 2026년 3월 26일(한국 기준 27일) 새 음성 AI 모델을 내놨습니다. 발표문만 보면 “역대 최고 품질”입니다. 그런데 공식 API 문서를 같이 열어보면 생각보다 다른 숫자와 조건이 눈에 들어옵니다.

90.8%

ComplexFuncBench
이전 모델 대비

200개국+

Search Live
이번 주 확대

128K

입력 토큰 상한
(오디오 기준 계산 필요)

Gemini 3.1 Flash Live가 뭔지 30초 요약

Gemini 3.1 Flash Live는 구글이 2026년 3월 26일 공개한 실시간 음성·영상 대화 특화 모델입니다. (출처: Google 공식 블로그, 2026.03.26) 기존 Gemini 2.5 Flash Native Audio의 후속 포지션인데, 이름에서 “3.1”이 붙는 건 Gemini 3 Pro 아키텍처 기반 위에서 파생됐다는 뜻입니다. 텍스트 생성 모델이 아니라 오디오 입출력에 특화된 구조라는 점이 일반 Gemini 3.1 Pro와 완전히 다릅니다.

접근 경로는 세 가지로 나뉩니다. 개발자는 Google AI Studio의 Gemini Live API를 통해 프리뷰로 쓸 수 있고, 기업은 Gemini Enterprise for Customer Experience를 통해, 일반 사용자는 Gemini Live 앱과 Search Live에서 이미 경험하고 있습니다. 중요한 건 “프리뷰(Preview)” 단계라는 표현인데, 공식 API 문서에도 모델 코드가 gemini-3.1-flash-live-preview로 표기되어 있습니다. (출처: Google AI for Developers 공식 모델 문서, 2026.03)

정식 출시 전 프리뷰 단계라는 사실은 아래에서 설명할 기능 제한과 직결됩니다.

▲ 목차로 돌아가기

벤치마크 수치, 공식 문서 기준으로 읽는 법

구글이 제시한 핵심 수치 세 가지가 있습니다. 첫째, ComplexFuncBench Audio에서 이전 모델 대비 90.8%. 둘째, BigBench Audio에서 선두. 셋째, Scale AI의 AudioMultiChallenge에서 thinking 모드 활성화 시 36.06%로 1위. (출처: Google DeepMind 공식 모델 카드, 2026.03.26)

여기서 짚어야 할 부분이 있습니다. AudioMultiChallenge 수치는 “thinking on” 조건에서 나온 값입니다. 실제 API 기본값은 thinking 레벨이 minimal로 설정돼 있습니다. (출처: Google AI for Developers, Gemini 3.1 Flash Live Preview 문서, 2026.03) 즉 기본 세팅으로 쓰면 저 36.06%가 나오지 않습니다. 벤치마크 최고치를 낼 수는 있지만 그 조건이 “기본 설정”은 아닌 셈입니다.

💡 공식 발표문과 API 문서를 같이 놓고 보니 이런 차이가 보였습니다.
thinking 레벨을 high로 올리면 성능은 올라가지만 지연 시간(latency)도 늘어납니다. 실시간 음성 대화에서 응답 속도가 느려지면 자연스러운 대화 흐름이 끊깁니다. 구글이 기본값을 minimal로 설정한 이유가 여기 있습니다.

벤치마크	조건	Gemini 3.1 Flash Live	비고
ComplexFuncBench Audio	기본	90.8%	이전 모델 대비 1위
AudioMultiChallenge	thinking ON	36.06%	기본값은 minimal
BigBench Audio	기본	1위	순위 공개, 점수 미공개

출처: Google DeepMind 모델 카드 (deepmind.google/models/model-cards/gemini-3-1-flash-live, 2026.03.26)

▲ 목차로 돌아가기

128K 토큰이 실제론 몇 분짜리 대화인지

공식 문서에 따르면 Gemini 3.1 Flash Live의 입력 토큰 한도는 131,072(약 128K)개입니다. (출처: Google AI for Developers, gemini-3.1-flash-live-preview 모델 문서, 2026.03) 숫자만 보면 꽤 커 보입니다.

문제는 오디오를 토큰으로 환산하면 계산이 달라진다는 점입니다. Gemini Live API 공식 기술 사양에서는 오디오 입력 기준 초당 25토큰으로 처리됩니다. (출처: Google Cloud Vertex AI 가격 문서) 이걸 단순 계산하면 이렇습니다.

📐 계산해보면:
131,072 토큰 ÷ 25 토큰/초 = 5,242초 ≈ 약 87분

단방향 오디오(입력만)로 채울 경우의 이론적 상한입니다. 실제 대화는 양방향이고 텍스트·이미지가 섞이면 훨씬 빠르게 소진됩니다.

87분처럼 들리지만, 이미지나 동영상 프레임이 동시에 들어오면 토큰은 훨씬 빠르게 줄어듭니다. 특히 공식 마이그레이션 가이드에는 “비디오를 지속적으로 스트리밍하면 오디오 활동이 없을 때도 비용이 발생할 수 있어 주의해야 한다”는 내용이 그대로 적혀 있습니다. (출처: Google AI for Developers, Gemini 3.1 Flash Live Preview 마이그레이션 가이드, 2026.03) 생각보다 한도 소진이 빠를 수 있다는 뜻입니다.

128K 토큰이 “무제한에 가까운 대화”처럼 느껴지지만, 멀티모달 실시간 환경에서는 조건에 따라 30~40분 세션도 충분히 끊길 수 있습니다.

▲ 목차로 돌아가기

신버전인데 2.5보다 빠진 기능이 있습니다

보통 새 버전이 나오면 기능이 추가됩니다. 그런데 Gemini 3.1 Flash Live Preview에서는 이전 모델(Gemini 2.5 Flash Native Audio)에 있던 기능 두 가지가 빠졌습니다. 공식 API 문서에 그대로 기재되어 있습니다.

⚠️ 현재 미지원 (공식 문서 명시)

Proactive Audio — 모델이 먼저 음성으로 말을 거는 기능. 사용자가 말하지 않아도 AI가 맥락을 읽고 선제적으로 응답하는 구조.
Affective Dialogue — 사용자의 감정 상태(좌절·혼란·흥분)를 음향적으로 감지해 응답 톤을 실시간 조정하는 기능.

출처: Google AI for Developers, Gemini 3.1 Flash Live Preview 모델 문서 (2026.03)

발표 자료에서는 “톤 이해가 개선됐다”고 했는데, Affective Dialogue 기능 자체는 이 버전에서 제거되어 있습니다. 이 두 기능을 2.5 기반 코드에서 사용하고 있다면, 3.1로 마이그레이션할 때 해당 설정을 코드에서 직접 제거해야 합니다. 그렇지 않으면 에러가 발생합니다. (출처: Google AI for Developers, 마이그레이션 가이드, 2026.03)

구글이 공식 이유를 별도로 밝히지 않았습니다. Preview 단계에서의 일시적 제한인지, 아키텍처 설계 변경인지는 현재로선 확인할 수 없습니다.

▲ 목차로 돌아가기

일반 사용자·개발자·기업, 접근 경로가 다릅니다

Gemini 3.1 Flash Live는 같은 모델이지만 어디서 접근하느냐에 따라 경험이 완전히 달라집니다. 이미 Gemini 앱에서 음성 대화 기능을 쓰고 있다면 사실상 이 모델로 업그레이드된 Gemini Live를 경험하고 있는 겁니다. 별도 설치나 설정 없이 자동으로 적용됩니다.

개발자 입장에서는 Google AI Studio에서 gemini-3.1-flash-live-preview 모델 스트링으로 접근합니다. 무료 티어에서도 테스트 가능하지만, Gemini Live API를 통한 오디오 처리는 유료 티어에서 과금이 시작됩니다. 공식 가격 기준으로 오디오 입력은 100만 토큰당 $3.00(약 200,000 토큰 이하), 오디오 출력은 100만 토큰당 $12.00입니다. (출처: Google AI for Developers 가격 문서, 2026.03)

💡 텍스트·이미지 입력 대비 오디오 입력은 6배, 출력은 6배 비쌉니다.
같은 질문이라도 음성으로 보내면 텍스트보다 과금 속도가 빠릅니다.

기업 고객은 Gemini Enterprise for Customer Experience를 통해 별도 계약 기반으로 사용합니다. 버라이즌(Verizon), 홈디포(The Home Depot), LiveKit 등이 이미 워크플로우에 도입했다고 구글이 공식 발표에서 밝혔습니다. (출처: Google 공식 블로그, 2026.03.26)

▲ 목차로 돌아가기

공식 발표문과 실제 마이그레이션 문서를 같이 보니

이번 출시에서 흥미로운 점이 있습니다. 구글 공식 블로그는 “자연스러운 대화, 빠른 응답, 향상된 톤 이해”를 강조합니다. 그런데 공식 API 마이그레이션 가이드를 열면 기존 2.5 기반 코드에서 반드시 수정해야 하는 항목 목록이 나옵니다.

그 중 눈에 띄는 건 Thinking 설정 방식의 변경입니다. 이전 모델은 thinkingBudget(숫자값)을 썼는데, 3.1부터는 thinkingLevel(minimal / low / medium / high)로 방식이 바뀌었습니다. (출처: Google AI for Developers, 마이그레이션 가이드, 2026.03) 단순 업그레이드가 아니라 API 설계 자체가 달라졌습니다.

💡 지금까지 나온 3.1 Flash Live 소개 글들은 대부분 성능 향상만 다룹니다.
실제로 코드를 마이그레이션하면 Proactive Audio 설정 제거, thinkingLevel 교체, send_client_content 사용 방식 변경, 서버 이벤트 처리 방식 수정까지 네 군데를 건드려야 합니다.

또 하나 변경된 부분이 있습니다. 기존에는 비디오를 지속적으로 스트리밍해도 별도 처리가 없었는데, 3.1부터는 오디오 활동이 없는 구간에서도 비디오 프레임이 토큰을 계속 소모합니다. 의도하지 않은 과금이 생길 수 있는 지점입니다. (출처: Google AI for Developers, Gemini 3.1 Flash Live Preview 문서, 2026.03)

▲ 목차로 돌아가기

Search Live 한국어 확대, 이게 왜 중요한지

이번 Gemini 3.1 Flash Live 출시와 동시에 Search Live의 글로벌 서비스 확대가 이루어졌습니다. 200개 이상의 국가에서 자국 언어로 구글 검색을 음성·영상으로 실시간 대화하듯 쓸 수 있게 됩니다. (출처: Google 공식 블로그, 2026.03.26) 한국어도 이 다국어 지원 범위에 포함됩니다.

여기서 생각해볼 포인트가 있습니다. 지금까지의 AI 음성 서비스는 영어 우선이었고, 한국어 지원은 항상 후순위였습니다. 그런데 이번 출시에서 구글은 “다국어 처리를 기본으로 갖추고 있다”고 표현했습니다. (출처: Google 공식 블로그, 2026.03.26) 기본 설계에서 다국어를 염두에 뒀다는 의미입니다.

Search Live에서 스마트폰 카메라로 무언가를 비추며 음성으로 질문하면, 실시간으로 답변이 나오는 경험이 한국어로 가능해집니다. 단순한 기능 추가가 아니라 검색 자체의 인터페이스가 바뀌는 흐름입니다. 구글 검색 습관이 달라질 수 있는 변화입니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. Gemini 3.1 Flash Live는 지금 무료로 쓸 수 있나요?

Q2. Gemini 2.5 Flash Native Audio를 쓰고 있었는데 3.1로 바꿔야 하나요?

성능 면에서는 3.1이 ComplexFuncBench 기준 90.8%로 이전 대비 앞섭니다. 다만 Proactive Audio와 Affective Dialogue를 코드에서 사용하고 있다면 그 부분을 제거해야 하고, thinkingBudget → thinkingLevel로 설정 방식도 바꿔야 합니다. 기능 호환성을 먼저 점검한 뒤 마이그레이션하는 게 안전합니다. (출처: Google AI for Developers 마이그레이션 가이드, 2026.03)

Q3. 한국어 대화 품질은 영어랑 차이가 있나요?

구글 공식 블로그에서 “다국어 처리를 기본으로 갖추고 있다”고 밝혔고, Gemini Live API 공식 문서에는 70개 언어를 지원한다고 명시돼 있습니다. 한국어도 포함되어 있습니다. 그러나 언어별 세부 성능 비교 데이터는 공식 문서에서 별도로 공개되지 않았습니다.

Q4. SynthID 워터마크가 붙으면 음성 품질에 영향이 있나요?

구글은 SynthID 워터마크를 “인지할 수 없는(imperceptible) 방식으로 오디오에 직접 내장한다”고 설명합니다. (출처: Google 공식 블로그, 2026.03.26) AI 생성 콘텐츠 식별을 위한 장치로, 사용자가 체감하는 음성 품질에는 영향이 없다는 입장입니다.

Q5. Gemini 3.1 Flash Live Preview는 언제 정식 출시되나요?

구글이 정식 출시 일정을 공식 발표하지 않았습니다. Preview 단계 종료 시점과 기능 추가(Proactive Audio·Affective Dialogue 복구) 일정도 현재로서는 공개된 정보가 없습니다.

▲ 목차로 돌아가기

마치며

Gemini 3.1 Flash Live는 실시간 음성 AI 분야에서 벤치마크 수치로는 분명히 앞섰습니다. ComplexFuncBench 90.8%, AudioMultiChallenge 36.06%(thinking 모드 기준)는 현재 음성 전용 모델 중 최상위권입니다. (출처: Google DeepMind 모델 카드, 2026.03.26)

그런데 솔직히 말하면, 이 모델을 “새 버전이니까 무조건 더 낫다”고 보기엔 아직 조건이 있습니다. Proactive Audio와 Affective Dialogue가 빠진 상태고, thinking 최고치를 내려면 기본 설정을 바꿔야 하고, 비디오 스트리밍 중 토큰 소모 방식도 달라졌습니다. 기존 2.5 기반 코드를 그냥 모델 스트링만 바꿔 쓰면 에러가 납니다.

Search Live가 한국어로 200개국에 확대되는 건 체감이 빠를 겁니다. 스마트폰 앱에서 음성으로 검색하는 경험 자체가 달라집니다. Preview 딱지가 떨어지고 빠진 기능이 돌아오면 그때가 더 본격적인 평가 시점이 될 것 같습니다.

📚 본 포스팅 참고 자료

본 포스팅은 2026년 3월 29일 기준 공식 발표 자료를 토대로 작성되었습니다. Gemini 3.1 Flash Live는 현재 Preview 단계이며, 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. API 가격, 지원 기능, 지역 제한 사항은 공식 문서에서 최신 정보를 확인하시기 바랍니다.

Gemini 3.1 Flash Live,
3가지 수치로 직접 확인했습니다

Gemini 3.1 Flash Live가 뭔지 30초 요약

벤치마크 수치, 공식 문서 기준으로 읽는 법

128K 토큰이 실제론 몇 분짜리 대화인지

신버전인데 2.5보다 빠진 기능이 있습니다

일반 사용자·개발자·기업, 접근 경로가 다릅니다

공식 발표문과 실제 마이그레이션 문서를 같이 보니

Search Live 한국어 확대, 이게 왜 중요한지

Q&A 5가지

마치며

📚 본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Gemini 3.1 Flash Live, 3가지 수치로 직접 확인했습니다

Gemini 3.1 Flash Live가 뭔지 30초 요약

벤치마크 수치, 공식 문서 기준으로 읽는 법

128K 토큰이 실제론 몇 분짜리 대화인지

신버전인데 2.5보다 빠진 기능이 있습니다

일반 사용자·개발자·기업, 접근 경로가 다릅니다

공식 발표문과 실제 마이그레이션 문서를 같이 보니

Search Live 한국어 확대, 이게 왜 중요한지

Q&A 5가지

마치며

📚 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기