제미나이 3.1 플래시 라이브 써봤습니다 — 모델 정체가 달랐습니다

Published on

in

제미나이 3.1 플래시 라이브 써봤습니다 — 모델 정체가 달랐습니다

2026.03.26 출시 기준
Gemini 3.1 Flash Live
Google AI Studio 프리뷰

제미나이 3.1 플래시 라이브 써봤습니다 — 모델 정체가 달랐습니다

이름만 보면 경량 Flash 모델처럼 보이지만, 공식 모델 카드를 열면 전혀 다른 얘기가 나옵니다. 실시간 음성 AI의 기준이 바뀌고 있습니다.

90.8%
ComplexFuncBench Audio
36.1%
AudioMultiChallenge (thinking on)
200개국+
서치 라이브 글로벌 확대
2배
대화 컨텍스트 유지 길이

‘Flash’인데 왜 Pro 기반인가 — 아키텍처의 반전

제미나이 3.1 플래시 라이브(Gemini 3.1 Flash Live)를 처음 봤을 때 “플래시니까 경량 모델이겠지”라고 생각했습니다. 막상 공식 모델 카드를 열어보니 전혀 다른 문장이 적혀 있었습니다. “Gemini 3.1 Flash Live is based on Gemini 3 Pro.” (출처: Google DeepMind 공식 모델 카드, 2026.03.26)

이름에 Flash가 붙어 있어서 Gemini 3 Flash의 파생 모델로 오해하기 딱 좋습니다. 실제로는 최상위 라인인 Gemini 3 Pro의 아키텍처를 그대로 가져와 실시간 음성 처리에 특화시킨 모델입니다. 학습 데이터, 하드웨어 구성, 소프트웨어 파이프라인 모두 Gemini 3 Pro 모델 카드를 따른다고 공식 문서에 명시돼 있습니다.

💡 공식 발표문과 모델 카드를 나란히 놓고 보니 이런 차이가 보였습니다 — Flash라는 이름은 ‘가벼운 모델’이 아니라 ‘실시간 라이브(Live) 처리에 최적화된 배포 형태’를 뜻합니다. 같은 Flash 계열이라도 Flash-Lite와 Flash Live는 완전히 다른 목적으로 설계됐습니다.

이 구분이 중요한 건, 실시간 음성 모델에서 기반 아키텍처의 추론 품질이 응답의 자연스러움과 직결되기 때문입니다. 단순히 빠른 응답만 원한다면 Flash-Lite로 충분합니다. 그런데 구글이 굳이 Pro 기반 아키텍처를 실시간 음성에 붙인 건, 대화 중 발생하는 주저함·억양 변화·감정 뉘앙스까지 처리해야 하는 음성 에이전트 요구 사항 때문입니다.

입력 형식은 오디오, 이미지, 영상, 텍스트까지 지원하며 컨텍스트 윈도우는 최대 128K 토큰입니다. 출력은 오디오와 텍스트 두 가지이며, 최대 64K 토큰 출력을 지원합니다. (출처: Google DeepMind 모델 카드, 2026.03.26)

▲ 목차로 돌아가기

벤치마크 수치를 직접 따져봤습니다

음성 AI 모델 성능을 얘기할 때 대부분의 글이 “자연스럽다”, “빠르다”로 끝납니다. 공식 문서에는 구체적인 수치가 3개 있습니다. 하나씩 뜯어봤습니다.

① ComplexFuncBench Audio — 다단계 함수 호출 능력

Gemini 3.1 Flash Live는 ComplexFuncBench Audio에서 90.8%를 기록했습니다. (출처: Google 공식 블로그, 2026.03.26) 같은 벤치마크에서 OpenAI의 GPT-Realtime은 81.1%를 기록했습니다. (출처: Surf AI 분석, 2026.03.29 기준) 약 9.7%p 차이로, 음성으로 여행 예약 같은 다단계 작업을 지시할 때 더 정확하게 처리한다는 뜻입니다.

벤치마크 Gemini 3.1 Flash Live GPT-Realtime 비고
ComplexFuncBench Audio 90.8% 81.1% 다단계 함수 호출
AudioMultiChallenge (thinking on) 36.1% 공개 미확인 장기 추론·지시 이행

출처: Google 공식 블로그(2026.03.26), Surf AI(2026.03.29)

② AudioMultiChallenge — “말하다 끊기는 상황”을 테스트한 벤치마크

AudioMultiChallenge는 Scale AI가 운영하는 벤치마크로, 이름이 생소할 수 있습니다. 핵심은 이 벤치마크가 실제 대화에서 흔한 중단(interruption)과 주저함(hesitation) 상황을 테스트한다는 겁니다. 즉 “아, 그러니까… 잠깐, 이건 어떻게 하죠?”처럼 말이 꼬이는 상황에서도 맥락을 유지하고 올바른 답을 내놓을 수 있는지 봅니다.

Gemini 3.1 Flash Live는 여기서 36.1%를 기록하며 공개된 경쟁 모델 중 1위입니다. (출처: Google 공식 블로그, 2026.03.26) 수치 자체가 낮아 보일 수 있는데, 이 벤치마크가 의도적으로 매우 어렵게 설계되어 있기 때문입니다. 중요한 건 리더보드 1위 자리입니다.

💡 “thinking 모드를 켜야 36.1%”라는 조건이 중요합니다. 실시간 대화에서 thinking 모드를 항상 활성화하면 응답 지연이 늘어납니다. 구글이 이 모드를 선택 옵션으로 제공하는 이유가 있습니다 — 정확도와 속도, 둘 다를 동시에 최대로 가져가기는 어렵습니다.

▲ 목차로 돌아가기

서치 라이브와 제미나이 라이브, 실제로 다릅니다

Gemini 3.1 Flash Live가 두 군데에 동시에 들어가는데, 이 둘을 같은 서비스로 혼동하는 경우가 많습니다. 목적과 사용 흐름이 전혀 다릅니다.

서치 라이브(Search Live) — 구글 검색의 음성 전환

서치 라이브는 구글 앱(Android·iOS) 검색창 하단의 ‘Live’ 아이콘을 탭하면 시작됩니다. 질문하면 오디오 답변이 오고, 후속 질문을 이어갈 수 있습니다. 카메라를 활성화하면 눈앞의 사물을 같이 보면서 대화합니다. 이번 업데이트로 한국을 포함한 200개국 이상에서 이용 가능해졌습니다. (출처: Google 서치 라이브 공식 블로그, 2026.03.26)

제미나이 라이브(Gemini Live) — 브레인스토밍·대화 파트너

제미나이 라이브는 검색이 목적이 아닙니다. 장시간 대화를 이어가면서 아이디어를 발전시키는 용도에 가깝습니다. 이번 업데이트로 대화 컨텍스트 유지 길이가 이전 모델 대비 2배로 늘었습니다. (출처: Google 공식 블로그, 2026.03.26) 긴 브레인스토밍을 하다가 앞에 했던 말을 잊지 않게 됐다는 뜻입니다.

구분 서치 라이브 제미나이 라이브
주목적 실시간 정보 검색 대화형 협업·브레인스토밍
진입 경로 구글 앱 내 ‘Live’ 아이콘 Gemini 앱
카메라 연동 ✅ 지원 ✅ 지원
컨텍스트 유지 단기 대화 중심 이전 대비 2배 확장
결과 제공 방식 오디오 답변 + 웹 링크 오디오 응답 중심

서치 라이브는 웹 링크를 함께 제공한다는 점이 핵심 차이입니다. 음성으로 답을 들은 뒤 더 깊이 파고들고 싶으면 링크를 탭하면 됩니다. 단순 음성 응답에서 끝나는 게 아니라 기존 검색 생태계와 연결됩니다.

▲ 목차로 돌아가기

SynthID 워터마크, 완벽하지 않은 이유

Gemini 3.1 Flash Live가 생성하는 모든 오디오에는 SynthID 워터마크가 내장됩니다. 사람 귀에는 들리지 않지만 시스템이 감지할 수 있는 방식으로 직접 오디오 파형 안에 삽입됩니다. 구글이 이 기술을 적용한 이유는 AI 생성 음성이 허위 정보 유포에 악용되는 것을 막기 위해서입니다. (출처: Google DeepMind 모델 카드, 2026.03.26)

그런데 공식 문서 어디에도 SynthID가 100% 탐지를 보장한다는 표현이 없습니다. 구글 스스로 “신뢰성 있는 식별을 가능하게 한다(allowing the reliable detection)”고 표현합니다. ‘완전한 방지’가 아니라 ‘탐지 가능성의 확보’입니다. 현재로서 구글이 공식 답변을 내놓지 않은 부분은, 오디오를 재압축하거나 변환 처리했을 때 워터마크 유지 여부입니다.

⚠️ 실사용에서 주의할 점
AI 생성 음성인지 확인하려면 원본 파일이 있어야 SynthID 탐지가 가능합니다. 카카오톡이나 유튜브를 통해 재배포된 오디오가 워터마크를 온전히 유지하는지는 아직 공개된 검증 데이터가 없습니다. SynthID가 존재한다는 사실 자체는 중요하지만, “이걸 쓰니까 딥페이크 음성 걱정 없다”는 결론으로 이어지기는 이릅니다.

이 부분은 기존에 나온 대부분의 소개 글에서 다루지 않습니다. SynthID를 “AI 음성 식별 기술”이라고만 소개하고 끝내는 경우가 많습니다. 구글도 실시간 음성 AI가 고객 서비스나 전화 상담에 본격 투입되는 상황을 염두에 두고 있기 때문에, 이 기술의 한계를 알고 사용하는 게 맞습니다.

▲ 목차로 돌아가기

개발자라면 지금 당장 써야 할 이유

Google AI Studio에서 Gemini Live API를 통해 지금 바로 프리뷰 버전으로 접근할 수 있습니다. (출처: Google 공식 블로그, 2026.03.26) 별도 신청 없이 AI Studio 계정만 있으면 됩니다.

이 모델의 설계 목표가 “소음이 심한 환경에서도 복잡한 작업을 수행하는 음성 기반 에이전트”라는 점에 주목할 필요가 있습니다. 구글이 예시로 든 기업들, 즉 버라이즌(Verizon)·홈디포(The Home Depot)·라이브킷(LiveKit)이 이미 워크플로우에 도입했고 긍정적 피드백을 공유했습니다. 쇼핑몰 고객 상담, 음성 예약 시스템, 실시간 코딩 어시스턴트가 대표적인 활용 사례입니다.

💡 공식 발표문에는 “음성으로 바이브 코딩(vibe code)을 할 수 있다”는 예시가 등장합니다. 코드 작성을 음성으로 지시하고, 실행 결과를 음성으로 보고받는 흐름입니다. 텍스트 기반 코딩 어시스턴트와 병행하면 손을 쓰기 어려운 환경에서도 개발 작업이 가능해집니다.

기업용으로는 ‘고객 경험용 제미나이 엔터프라이즈(Gemini Enterprise for Customer Experience)’를 통해 접근할 수 있습니다. 이 경로는 이전 세대인 2.5 Flash Native Audio 대비 음조(pitch)와 속도(pace) 인식이 향상됐고, 사용자가 불만이나 혼란을 표현할 때 응답을 자동으로 조정하는 기능이 추가됐습니다. (출처: Google 공식 블로그, 2026.03.26)

▲ 목차로 돌아가기

일반 이용자가 체감할 수 있는 변화

개발자나 기업이 아니어도 이 업데이트의 영향을 직접 받습니다. 구글 앱(Android·iOS)을 열고 검색창 하단의 ‘Live’ 아이콘을 탭하면 서치 라이브가 시작됩니다. 한국에서도 지금 바로 사용할 수 있습니다.

가장 실용적인 사용 장면은 두 가지입니다. 첫 번째는 눈앞의 사물을 카메라로 비추면서 질문하는 상황입니다. 가전 연결 케이블을 모를 때, 식물 잎 상태가 이상할 때, 요리 중 재료가 맞는지 확인할 때 — 타이핑하기 귀찮은 바로 그 순간에 씁니다. 두 번째는 이동 중 핸즈프리가 필요한 상황입니다. 운전하거나 짐을 들고 있을 때도 음성으로 검색이 가능합니다.

제미나이 라이브에서 컨텍스트가 2배로 늘어난 건 체감하기 조금 시간이 걸릴 수 있습니다. 실제로 긴 대화를 해보면 10분 전에 했던 말을 기억하고 이어받는 경험이 달라집니다. 브레인스토밍이나 공부 질의응답을 오래 할 때 차이가 납니다.

💡 서치 라이브는 오디오 응답과 함께 웹 링크도 줍니다. 기존 AI 음성 어시스턴트(시리·빅스비)가 음성으로만 답하고 끝냈던 것과 달리, 더 파고들고 싶으면 링크를 탭할 수 있는 구조입니다. 검색 생태계 전체와 연결되는 방식이 다릅니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. 제미나이 3.1 플래시 라이브는 유료인가요?

일반 이용자는 서치 라이브와 제미나이 라이브를 구글 앱과 제미나이 앱을 통해 무료로 사용할 수 있습니다. 개발자용 Gemini Live API는 Google AI Studio에서 프리뷰로 접근 가능하며, 상용 과금 구조는 구글이 아직 공개하지 않은 상태입니다. 기업용 경로(Gemini Enterprise for Customer Experience)는 별도 계약이 필요합니다.

Q2. Gemini 3 Flash와 Gemini 3.1 Flash Live는 다른 모델인가요?

네, 완전히 다릅니다. Gemini 3 Flash는 텍스트 기반 경량 모델이고, Gemini 3.1 Flash Live는 Gemini 3 Pro 아키텍처를 기반으로 실시간 오디오 처리에 특화된 모델입니다. (출처: Google DeepMind 모델 카드, 2026.03.26) 이름이 비슷해 보이지만 설계 목적과 기반 아키텍처가 다릅니다.

Q3. 서치 라이브가 한국어를 잘 지원하나요?

Gemini 3.1 Flash Live는 다국어 처리 능력을 모델 자체에 내장하고 있습니다. 구글이 한국을 포함한 200개국 이상 동시 출시를 선택한 근거가 이 다국어 내장 능력입니다. (출처: Google 공식 블로그, 2026.03.26) 다만 한국어 억양이나 구어체 맥락 처리의 정밀도는 실제 사용 후기가 더 쌓여야 정확히 판단할 수 있습니다.

Q4. SynthID 워터마크가 있으면 딥페이크 음성 걱정이 없는 건가요?

그렇게 단정하기는 이릅니다. SynthID는 원본 파일에서 AI 생성 여부를 탐지하는 기술입니다. 재압축·재배포 과정에서 워터마크가 유지되는지에 대해 구글이 공식 답변을 내놓지 않은 부분입니다. “탐지 가능성의 확보”와 “완전한 방지”는 다릅니다.

Q5. thinking 모드를 항상 켜고 사용하는 게 유리한가요?

상황에 따라 다릅니다. thinking 모드를 켜면 복잡한 지시나 장기 추론에서 정확도가 높아지지만, 응답 속도가 느려질 수 있습니다. 빠른 일상 대화나 단순 정보 검색은 thinking 모드 없이도 충분하고, 다단계 에이전트 작업이나 복잡한 지시 이행에는 켜두는 쪽이 유리합니다.

▲ 목차로 돌아가기

마치며 — 이름에 속지 말아야 하는 모델

Gemini 3.1 Flash Live를 한 줄로 요약하면 이렇습니다. Pro급 아키텍처를 실시간 음성 처리에 맞게 재배치한 모델입니다. Flash라는 이름 때문에 경량 모델로 오해하기 쉬운데, 공식 모델 카드가 명확하게 선을 긋고 있습니다.

ComplexFuncBench Audio 90.8%, AudioMultiChallenge 36.1% 1위는 숫자 자체보다 이 모델이 실제 대화의 불완전함 — 주저함, 중단, 억양 — 을 제대로 다루는 방향으로 설계됐다는 신호입니다. 벤치마크 수치가 낮아 보여도 리더보드 1위라는 사실이 그걸 방증합니다.

SynthID 워터마크는 긍정적인 방향이지만 “완벽한 방어막”으로 받아들이면 안 됩니다. 재압축·재배포 시 워터마크 유지 여부는 이유가 아직 공개되지 않았습니다. 기술이 성숙하는 과정에 있습니다.

솔직히 말하면, 서치 라이브의 실제 한국어 품질은 더 써봐야 압니다. 구글 공식 발표가 인상적인 건 사실이지만, 한국어 구어체 억양과 맥락 처리가 영어와 같은 수준인지는 공식 문서만으로는 판단하기 어렵습니다. 직접 써보면서 확인하는 게 맞습니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

  1. Google 공식 블로그 — 제미나이 3.1 플래시 라이브 발표 (한국어) https://blog.google/intl/ko-kr/company-news/technology/gemini-31-flash-live-kr/
  2. Google DeepMind — Gemini 3.1 Flash Live 공식 모델 카드 https://deepmind.google/models/model-cards/gemini-3-1-flash-live/
  3. Google 공식 블로그 — 서치 라이브 글로벌 확대 (한국어) https://blog.google/intl/ko-kr/products/explore-get-answers/search-live-kr/
  4. Gemini API 공식 릴리스노트 https://ai.google.dev/gemini-api/docs/changelog?hl=ko

※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문 내 수치와 사양은 2026년 3월 26일~29일 기준 공식 문서를 바탕으로 작성됐습니다. Google이 추후 모델 카드 또는 API 문서를 업데이트할 경우 내용이 달라질 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기