Gemini 3.1 Flash Live, 36% 성적표를 먼저 보세요
구글이 “역대 최고 품질의 오디오 모델”이라고 발표한 Gemini 3.1 Flash Live. 막상 공식 벤치마크 수치를 뜯어보면, ‘최고’라는 표현이 어떤 맥락에서 나온 건지 따져볼 필요가 있습니다.
Gemini 3.1 Flash Live가 무엇인지 30초 정리
2026년 3월 26일, 구글이 Gemini 3.1 Flash Live를 공식 출시했습니다. 구글 AI 스튜디오(Google AI Studio)의 Gemini Live API를 통해 개발자 프리뷰 버전으로 먼저 열렸고, 일반 사용자는 Gemini Live 앱과 Search Live(AI 모드)를 통해 이 모델의 혜택을 받습니다 (출처: 구글 공식 블로그, 2026.03.26).
이 모델은 음성을 입력받아 음성으로 대답하는 오디오-투-오디오(Audio-to-Audio, A2A) 구조입니다. 텍스트를 거치지 않고 음성에서 바로 의미를 파악하기 때문에 지연 시간(latency)이 짧고, 말투·속도·억양 같은 음향적 뉘앙스까지 읽어냅니다.
모델 아키텍처는 Gemini 3 Pro를 기반으로 합니다 (출처: DeepMind 모델카드, 2026.03.26). 3 Pro의 추론 능력 위에 실시간 음성 처리를 얹은 구조라고 보면 됩니다. 입력은 최대 128K 토큰 컨텍스트 창에서 오디오·이미지·영상·텍스트 모두 받고, 출력은 오디오와 텍스트 두 가지입니다.
‘역대 최고’라는 수식어가 정확히 어떤 의미인가
구글은 Gemini 3.1 Flash Live를 “가장 높은 품질의 오디오 및 음성 모델”이라고 직접 표현했습니다. 이 말이 틀리지는 않습니다. 다만 여기서 말하는 ‘역대 최고’는 구글이 이전에 출시한 Live API 계열 모델들과의 비교입니다 — 즉, 2.5 Flash Native Audio 대비 최고라는 뜻입니다 (출처: 구글 공식 블로그, 2026.03.26).
직접 따라해볼 수 있는 벤치마크 수치가 세 가지 있습니다. 구글이 공개한 ComplexFuncBench Audio 점수는 전 버전 대비 90.8%의 성능 향상입니다 — 이 수치는 절대값이 아니라 이전 모델 대비 상대 향상폭입니다. AudioMultiChallenge(Scale AI)에서는 사고(thinking) 모드 활성화 기준 36.06%를 기록했고, 이 점수로 실시간 대화 모델 중 1위를 차지했습니다 (출처: 구글 공식 블로그, 2026.03.26).
💡 공식 발표문과 벤치마크 방법론을 같이 놓고 보니 이런 차이가 보였습니다
90.8%와 36.06%는 서로 다른 평가 기준입니다. 전자는 함수 호출 정확도, 후자는 실제 대화 흐름 이해력을 측정합니다. 두 수치 모두 구글이 공개한 공식 수치이지만, 실제 사용 경험은 후자에 더 가깝습니다.
36.1%가 실제로 말해주는 것
AudioMultiChallenge는 Scale AI가 운영하는 벤치마크로, 말 중간의 끊김·망설임·주제 전환 같은 실제 대화 환경에서의 복잡한 지시 이해 능력을 평가합니다. Gemini 3.1 Flash Live는 여기서 36.1%를 기록하며 실시간 대화 모델 중 선두입니다 (출처: DeepMind 모델카드, 2026.03.26).
여기서 주목할 점이 있습니다. 실시간 대화 설계가 아닌 비대화형 오디오 모델들은 같은 테스트에서 50% 이상을 기록합니다 (출처: Ars Technica, 2026.03.26). 즉, Gemini 3.1 Flash Live는 ‘실시간 대화’ 제약 안에서 최고이지, 오디오 이해력 자체로는 더 높은 점수가 존재합니다.
이게 왜 중요한가 하면 — 낮은 지연 시간과 높은 이해 정확도는 서로 트레이드오프 관계에 있습니다. 대화를 끊김 없이 주고받으려면 모델이 빠르게 응답해야 하고, 그 속도를 유지하는 과정에서 이해 정확도가 일정 부분 양보됩니다. 구글이 이 모델을 “Flash”라고 부르는 이유가 여기에 있습니다.
| 모델 유형 | AudioMultiChallenge | 특징 |
|---|---|---|
| Gemini 3.1 Flash Live | 36.1% (thinking 모드) | 실시간 대화 모델 중 1위 |
| 비대화형 오디오 모델 | 50% 이상 | 실시간 제약 없음 |
| 2.5 Flash Native Audio (전 버전) | 공개 미기재 | Gemini 3.1 FL 대비 낮음 |
출처: DeepMind 모델카드(2026.03.26), Ars Technica(2026.03.26)
Search Live 200개국 확장, 같은 날 나온 이유
2026년 3월 26일, 구글은 Gemini 3.1 Flash Live 발표와 동시에 Search Live의 글로벌 확장을 공식화했습니다. Search Live가 AI 모드(AI Mode)를 지원하는 200개 이상의 국가와 지역에서 음성과 카메라를 활용한 실시간 대화 검색으로 확장된 것입니다 (출처: Google Search 공식 블로그, 2026.03.26).
이 두 발표가 같은 날 나온 건 구조적 이유가 있습니다. Gemini 3.1 Flash Live는 90개 이상의 언어를 기본으로 처리하는 멀티링궤(multilingual) 설계입니다 (출처: 9to5Google, 2026.03.26). 이 모델 없이는 다국어 실시간 대화 확장 자체가 불가능했습니다. 한국어를 포함한 각 언어권 사용자가 구글 검색에서 말로 질문하고, 카메라로 사물을 보여주며 즉시 답변을 받는 기능이 이 모델 위에서 돌아갑니다.
💡 두 발표를 나란히 놓고 보니 이런 흐름이 보였습니다
Search Live 확장은 결과물이고, Gemini 3.1 Flash Live는 그것을 가능하게 한 엔진입니다. 모델 발표와 서비스 확장을 하루에 묶은 건 이 의존 관계를 잘 보여줍니다.
Google 렌즈(Google Lens)에서도 마찬가지로 이 모델이 작동합니다 — 카메라로 무언가를 가리킨 채 화면 하단의 Live 버튼을 누르면, 실시간으로 눈앞의 사물에 대해 대화를 이어갈 수 있습니다 (출처: Google Search 공식 블로그, 2026.03.26).
SynthID 워터마크가 이 모델에 붙은 진짜 배경
구글은 Gemini 3.1 Flash Live가 생성하는 모든 오디오에 SynthID 워터마크를 적용한다고 공식 발표했습니다 (출처: 구글 공식 블로그, 2026.03.26). 이 워터마크는 인간의 귀로는 들리지 않고 오디오 파일 안에 직접 내장됩니다.
왜 굳이 이 모델에 워터마크를 의무화했을까요? Ars Technica의 분석이 직설적입니다 — Gemini 3.1 Flash Live의 음성이 너무 사람처럼 들려서, 구글 스스로가 AI임을 판별할 수단이 필요하다고 판단했다는 것입니다 (출처: Ars Technica, 2026.03.26). Home Depot, Verizon 같은 기업 파트너들이 이 모델을 고객 상담 전화에 도입했을 때, 상대방이 AI와 대화하고 있다는 사실을 알아채지 못할 수도 있다는 우려가 실제로 존재합니다.
단, SynthID 워터마크는 사람이 직접 듣는 방식으로는 감지할 수 없습니다. 별도의 감지 시스템을 갖춘 곳에서만 검증이 가능합니다. 즉, 콜센터에서 AI가 전화를 받더라도 고객 입장에서는 워터마크를 느끼지 못합니다. 오정보 확산 방지보다는 ‘사후 검증’ 수단에 가깝습니다.
지금 당장 쓸 수 있는 사람과 없는 사람
Gemini 3.1 Flash Live는 2026년 3월 26일 기준 세 가지 경로로 접근할 수 있습니다 (출처: 구글 공식 블로그, 2026.03.26).
Google AI Studio(ai.studio/live)의 Gemini Live API — 프리뷰 버전으로 제공. API 키만 있으면 직접 연동 가능.
Gemini Enterprise for Customer Experience 플랜을 통해 별도 계약으로 제공.
Gemini Live 앱(Android/iOS)과 Search Live(AI 모드) — 추가 설정 없이 자동 적용.
주의할 점이 있습니다. Gemini Live 앱에서 이 모델의 혜택을 받으려면 Gemini 앱이 설치된 Android 또는 iOS가 필요합니다. 구글 앱에서 Search Live를 사용하려면 마찬가지로 안드로이드 또는 iOS의 구글 앱에서 검색창 아래 Live 아이콘을 탭하면 됩니다.
솔직히 말하면, 개발자가 아닌 경우 Gemini 3.1 Flash Live를 “직접” 쓴다는 느낌은 잘 없습니다. 이미 Gemini Live를 쓰고 있다면 백엔드가 조용히 업그레이드된 형태이고, Search Live 역시 이전과 같은 방식으로 접근하되 응답이 자연스러워진 것입니다. 모델을 직접 제어하고 싶은 경우에는 AI Studio API 접근이 필요합니다.
자주 묻는 것들
Gemini 3.1 Flash Live는 무료로 쓸 수 있나요?
일반 사용자는 Gemini Live 앱과 Search Live를 통해 별도 비용 없이 이 모델의 기능을 경험할 수 있습니다. 단, Gemini 앱 유료 요금제가 없으면 사용 횟수·기능에 제한이 있습니다. 개발자 API 사용은 Gemini API 요금제에 따라 유료 책정이 됩니다 (출처: 구글 AI 스튜디오 가격 페이지).
한국어 음성 대화도 지원하나요?
Gemini 3.1 Flash Live는 90개 이상의 언어를 지원하며 한국어가 포함됩니다 (출처: 9to5Google, 2026.03.26). Google Workspace의 Gemini 언어 지원 목록에도 Korean이 명시되어 있습니다. 단, 언어별 음성 자연스러움에는 차이가 있을 수 있으며, 한국어 억양 처리 품질에 대한 공식 별도 수치는 이유가 아직 공개되지 않았습니다.
Gemini 3.1 Flash와 Gemini 3.1 Flash Live는 다른 모델인가요?
네, 다릅니다. Gemini 3.1 Flash는 텍스트·이미지 처리를 위한 범용 모델이고, Gemini 3.1 Flash Live는 실시간 음성 대화에 특화된 A2A 모델입니다. 둘 다 Gemini 3 Pro를 기반으로 하지만 실시간 오디오 스트리밍 처리 여부가 구분됩니다 (출처: DeepMind 모델카드, 2026.03.26).
Search Live는 어떻게 켜나요?
Android 또는 iOS에서 구글 앱을 열고, 검색창 아래 Live 아이콘을 탭하면 바로 시작됩니다. Google Lens를 열고 있을 경우에는 화면 하단의 Live 버튼으로도 진입할 수 있습니다 (출처: Google Search 공식 블로그, 2026.03.26).
SynthID 워터마크가 있으면 내 대화가 구글에 저장되나요?
SynthID 워터마크는 오디오 출력물에 AI 생성 표시를 내장하는 기술이며, 구글의 서버 저장 여부와는 별개입니다. 대화 데이터 보관 정책은 구글 AI 스튜디오 및 Gemini 앱의 개인정보 처리 방침을 별도로 확인해야 합니다. 구글은 이 워터마크의 목적을 “오정보 확산 방지”로 공식 명시했습니다 (출처: 구글 공식 블로그, 2026.03.26).
마치며
Gemini 3.1 Flash Live는 실시간 대화 AI 모델 중에서는 현재 가장 앞서 있는 게 맞습니다. 다만 그 ‘1위’ 자리가 36.1%라는 수치 위에 있다는 점을 기억할 필요가 있습니다. 더 느리지만 정확한 모델들이 같은 오디오 테스트에서 50% 이상을 기록한다는 사실을 옆에 두면, 속도와 이해력 사이의 선택이 어떤 식으로 작동하는지 감이 잡힙니다.
Search Live의 200개국 확장이 같은 날 나온 건 의미 있는 신호입니다. 구글이 이 모델을 단순한 기능 업데이트가 아니라 검색 자체를 음성·영상 대화로 바꾸려는 인프라 전환의 한 축으로 보고 있다는 뜻입니다.
SynthID 워터마크 의무화 결정은 솔직히 흥미롭습니다. 음성이 충분히 사람 같아진 시점에 구글이 AI 표시를 먼저 자발적으로 붙인 셈인데, 이게 규제 대응인지 자체 기준인지는 구글이 공식 이유를 밝히지 않은 부분입니다. 앞으로 음성 AI 규제 논의가 진행될 때 이 시점의 결정이 기준점이 될 수도 있습니다.
본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 수록된 벤치마크 수치 및 지원 국가·언어 정보는 2026년 3월 26일 구글 공식 발표 기준이며, 이후 업데이트로 달라질 수 있습니다. 공식 최신 정보는 ai.google.dev 및 blog.google에서 확인하세요.











댓글 남기기