Gemini 3.1 Flash Live, 비용 90% 줄었다는 말이 전부가 아닙니다

Published on

in

Gemini 3.1 Flash Live, 비용 90% 줄었다는 말이 전부가 아닙니다
2026.03.26 출시 기준
gemini-3.1-flash-live-preview
IT/AI

구글이 2026년 3월 26일 공개한 Gemini 3.1 Flash Live는 “음성 AI 비용을 최대 90% 줄일 수 있다”는 말로 빠르게 화제가 됐습니다. 근거 없는 과장이 아닙니다. 실제로 기존 STT→LLM→TTS 3단 스택을 통째로 대체하는 구조라서, 수치 자체는 맞습니다. 그런데 그 뒤에 붙는 조건들이 중요합니다. 공식 문서와 벤치마크 원문을 직접 확인해봤습니다.

90.8%
ComplexFuncBench Audio 1위
85~90%
비용 절감 추정치
대화 맥락 유지 개선
70개
지원 언어(한국어 포함)



이게 왜 갑자기 화제가 됐나요?

구글이 2026년 3월 26일 발표한 Gemini 3.1 Flash Live는 이름에서부터 포지션이 명확합니다. “플래시 라이브(Flash Live)”라는 조합이 보여주듯, 낮은 지연 시간으로 실시간 음성 대화에 특화된 모델입니다. 그런데 화제의 핵심은 성능보다 구조적 변화 쪽입니다.

기존 음성 AI 서비스를 만들려면 STT(음성→텍스트) 서비스, LLM(텍스트 이해·생성) 서비스, TTS(텍스트→음성) 서비스를 각각 붙여야 했습니다. API 3개를 이어 붙이는 구조라 비용도 세 곳에서 나가고, 레이턴시(응답 지연)도 각 단계마다 쌓였습니다. 3.1 Flash Live는 음성을 텍스트로 변환하지 않고 오디오 토큰을 직접 처리해서 음성으로 바로 응답합니다. 중간 단계가 통째로 사라지는 구조입니다.

구글 공식 블로그는 이 모델을 “구글 최고 품질의 오디오 및 음성 모델(highest-quality audio and voice model)”로 소개했습니다. (출처: Google Blog, 2026.03.26) 과장이 아닌지 벤치마크 수치로 확인해봤습니다.

▲ 목차로 돌아가기

기존 음성 AI 스택과 무엇이 다른가요?

실무에서 음성 AI 에이전트를 만들 때 실제로 드는 비용을 먼저 보겠습니다. AI 콜 분석 플랫폼 운영자가 Reddit에 공개한 실측 분석에 따르면, 프리미엄 3단 스택의 비용은 다음과 같습니다.

구성 요소 서비스 예시 분당 비용(추정)
STT Deepgram Nova-2 약 $0.002~$0.006
LLM GPT-4o / Claude 약 $0.04~$0.15
TTS ElevenLabs 스케일 약 $0.015~$0.06
3단 스택 합계 약 $0.06~$0.20
3.1 Flash Live 추정 네이티브 오디오 처리 약 $0.025~$0.035

※ 3.1 Flash Live 가격은 Preview 단계로 공식 미공개. 이전 모델(2.5 Flash Native Audio) 요금 기준 역산 추정치. (출처: Reddit B2BSaaS, 2026.03.28)

분당 비용이 $0.06~$0.20에서 $0.025~$0.035 수준으로 줄어듭니다. 85~90% 절감이라는 수치가 나오는 근거입니다. 단순히 싸다는 게 아니라 구조가 바뀐 겁니다. STT·TTS 비용이 사라지고 오디오 토큰 처리 비용만 남는 방식입니다.

💡 공식 발표와 실제 API 구조를 같이 놓고 보면 보이는 것:
구글 공식 Live API 문서는 입력 오디오 규격을 “16-bit PCM, 16kHz”로, 출력을 “24kHz”로 명시하고 있습니다. 텍스트 변환 없이 오디오 스트림 자체를 처리하는 구조이기 때문에, 기존 STT/TTS 비용이 원천적으로 발생하지 않습니다. (출처: Gemini Live API 공식 문서, ai.google.dev)

▲ 목차로 돌아가기

벤치마크 수치, 직접 뜯어봤습니다

구글이 공개한 벤치마크는 세 가지입니다. 각각 다른 능력을 측정하고, 결과 해석도 다릅니다.

① ComplexFuncBench Audio — 90.8%로 1위

여행 예약 시나리오에서 여러 함수를 연속으로 호출하는 능력을 측정하는 벤치마크입니다. 원래 텍스트 기반 평가였는데, 오디오로 합성해서 실시간 API에 그대로 적용한 방식입니다. 3.1 Flash Live는 이전 모델 대비 90.8%를 기록하며 1위를 차지했습니다. (출처: DeepMind 공식 모델카드, 2026.03.26) 실제로 연속 도구 호출이 필요한 음성 에이전트에서 가장 실용적인 지표입니다.

② AudioMultiChallenge — Thinking 모드 활성화 시 36.06%로 1위

Scale AI가 설계한 멀티턴 대화 벤치마크입니다. 대화 중단, 말더듬, 장기 추론 등 실제 환경을 반영한 복잡한 상황을 평가합니다. 3.1 Flash Live는 Thinking 모드 켤 때 36.06%로 업계 1위지만, 다른 모델들과 비교하면 아직 절대 수치 자체는 낮습니다. (출처: DeepMind 공식 모델카드) 36%면 상당 비율의 복잡한 오디오 상황은 아직 처리가 어렵다는 뜻입니다.

③ Big Bench Audio — 95.9% (Thinking High), 0.96초 응답 (Thinking None)

1,000개 오디오 클립에 대한 단일턴 이해력 평가입니다. 음성 이해, 환경음 인식, 억양·언어 식별 등 5가지 능력을 측정합니다. Thinking High 설정에서 95.9%, 응답 시간 2.98초. Thinking None에서는 정확도가 내려가지만 응답이 0.96초로 줄어듭니다. (출처: Zeniteq, 공식 모델카드 기반 분석, 2026.03.30) 정확도와 속도 사이에서 설정값을 선택해야 하는 구조입니다.

▲ 목차로 돌아가기

Thinking 모드를 켜면 오히려 느려집니다

“Thinking 모드를 켜면 더 똑똑해지고 더 빨라진다”고 생각하기 쉽습니다. 그런데 이 모델에서는 Thinking이 레이턴시를 직접 높입니다. 공식 API 문서에 따르면 3.1 Flash Live는 thinkingLevel을 minimal·low·medium·high 중에서 선택하도록 설계되어 있고, 기본값(default)은 최저 지연을 위해 minimal로 설정되어 있습니다. (출처: Google AI for Developers 공식 문서, ai.google.dev)

💡 공식 문서 수치와 벤치마크 결과를 겹쳐 보면 나오는 결론:
Big Bench Audio 기준으로 Thinking High(사고 최대)에서는 응답 시간이 2.98초, Thinking None에서는 0.96초입니다. 3배 이상 차이입니다. 실시간 대화에서 3초 응답은 사실상 끊김으로 느껴집니다. 음성 에이전트에서 Thinking을 무조건 올리는 것은 오히려 사용자 경험을 해칩니다.

이전 모델(Gemini 2.5 Flash Native Audio)에서 마이그레이션할 때도 동일합니다. 기존에 thinkingBudget으로 설정하던 방식이 thinkingLevel로 바뀌었고, 기본값이 minimal로 맞춰져 있어서 의도적으로 올리지 않는 한 최저 지연이 우선됩니다. (출처: Google AI for Developers, ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-live-preview) 실시간 대화와 정확도 사이에서 용도에 맞게 골라야 합니다.

▲ 목차로 돌아가기

실제 배포에서 막히는 지점이 따로 있습니다

비용이 줄고 벤치마크 수치가 좋아도, 실제 프로덕션에 넣으려면 다른 벽이 있습니다. 공식 문서에 명시된 현재 제한 사항들입니다.

🚫 비동기 함수 호출 미지원

함수 호출이 동기 방식만 가능합니다. 도구 응답을 받기 전까지 모델이 응답을 시작하지 않습니다. (공식 문서 명시)

🚫 Proactive Audio 미지원

이전 모델에서 지원하던 Proactive Audio(모델이 먼저 말 거는 기능)와 Affective Dialog(감정 적응)가 현재 버전에서 제거됐습니다.

🚫 GA 아닌 Preview 상태

현재 모델 코드는 gemini-3.1-flash-live-preview입니다. Preview 단계는 프로덕션용 레이트 리밋보다 더 엄격하게 제한됩니다. (공식 API 문서)

🚫 Caching·배치 미지원

컨텍스트 캐싱과 Batch API가 지원되지 않습니다. 반복적인 긴 대화에서 비용 최적화 옵션이 없습니다.

비동기 함수 호출이 안 된다는 점이 실무에서 특히 중요합니다. 콜센터 시나리오에서 CRM 조회나 예약 API를 중간에 호출해야 하는 경우, 도구 응답을 기다리는 동안 AI가 아무 말도 못 합니다. 현재로선 “잠깐 확인해볼게요”라는 말을 먼저 음성으로 내보낸 뒤 도구를 호출하는 방식으로 우회해야 합니다. (출처: Google AI for Developers 공식 문서 마이그레이션 가이드)

▲ 목차로 돌아가기

서치 라이브와의 연결, 일반 이용자에게 뭐가 달라지나요?

3.1 Flash Live는 단순히 개발자용 API가 아닙니다. 구글이 3월 26일 함께 전 세계로 확대한 ‘서치 라이브(Search Live)’의 엔진이기도 합니다. 구글 앱에서 ‘라이브’ 아이콘을 누르면 카메라로 주변을 비추며 AI와 실시간 음성 대화를 할 수 있고, 200개 이상 국가에서 이용 가능합니다. 한국도 포함됩니다. (출처: Google Blog, 2026.03.26)

이전 모델보다 대화 맥락 유지 능력이 2배 길어졌습니다. 긴 브레인스토밍 중에도 앞 대화를 잊지 않고 이어갈 수 있게 된 겁니다. (출처: Google Blog, 2026.03.26) 실제로 구글 Gemini Live 앱에서도 이 모델로 업데이트됩니다.

💡 개발자용 모델과 소비자용 앱이 동일한 엔진을 쓴다는 게 달라진 점:
이전까지 서치 라이브는 내부 모델을 썼고, Live API는 별도 모델이었습니다. 이번에 3.1 Flash Live가 양쪽 모두의 엔진이 되면서, API 개발자가 테스트한 품질이 Gemini Live 앱에서 일반 이용자가 경험하는 품질과 같아졌습니다. 개발 단계 검증과 실제 서비스 품질의 격차가 줄어드는 구조입니다.

SynthID 워터마크도 주목할 만합니다. 3.1 Flash Live가 생성하는 모든 오디오에는 감지 불가능한 SynthID 워터마크가 자동 삽입됩니다. 사람 귀로는 들리지 않지만 AI 생성 오디오임을 기계적으로 식별할 수 있는 방식입니다. (출처: DeepMind 공식 모델카드, 2026.03.26) 보이스 피싱이나 딥페이크 음성 대응에 쓸 수 있는 장치입니다.

▲ 목차로 돌아가기

Q&A

Q. Gemini 3.1 Flash Live는 지금 무료로 쓸 수 있나요?

Google AI Studio에서 Live API 프리뷰 형태로 접근 가능합니다. 단, Preview 단계라 레이트 리밋이 일반 GA 모델보다 엄격합니다. 공식 가격은 아직 미공개 상태이며, Google이 별도로 발표하지 않았습니다. (출처: Google AI for Developers 공식 문서, 2026.03.26)

Q. 한국어 지원이 되나요?

됩니다. Live API는 70개 언어를 지원하고 한국어가 포함됩니다. 서치 라이브도 한국을 포함한 200개 이상 국가에 2026년 3월 26일부터 확대됐습니다. (출처: Google Live API 공식 문서, Google Blog 2026.03.26)

Q. GPT-4o Realtime API와 비교하면 어느 쪽이 나은가요?

ComplexFuncBench Audio 기준으로 3.1 Flash Live가 업계 1위입니다. 비용 면에서도 구조적으로 유리합니다. 다만 비동기 함수 호출 미지원, GA 미전환 등 프로덕션 완성도 면에서는 아직 차이가 있습니다. 현재 기준으로 단순 비교보다 용도에 따른 선택이 중요합니다.

Q. 이전 모델(Gemini 2.5 Flash Native Audio)에서 마이그레이션하려면 뭘 바꿔야 하나요?

최소 세 가지를 수정해야 합니다. ① 모델 문자열을 gemini-2.5-flash-native-audio-preview-12-2025 → gemini-3.1-flash-live-preview로 변경, ② thinkingBudget을 thinkingLevel(minimal/low/medium/high)로 교체, ③ send_client_content를 send_realtime_input으로 변경. Proactive Audio·Affective Dialog 관련 코드는 삭제해야 합니다. (출처: Google AI for Developers 공식 마이그레이션 가이드)

Q. 생성된 오디오를 AI가 만든 것인지 구분할 방법이 있나요?

있습니다. 3.1 Flash Live가 생성하는 모든 오디오에는 SynthID 워터마크가 자동으로 삽입됩니다. 사람 귀로는 들리지 않지만 기계적으로 식별 가능합니다. 다만 워터마크가 없는 다른 방식으로 생성된 AI 오디오까지 잡아내지는 못합니다. (출처: DeepMind 공식 모델카드, 2026.03.26)

▲ 목차로 돌아가기

마치며

그런데 현실은 좀 더 복잡합니다. GA 미전환 상태라 레이트 리밋이 엄격하고, 비동기 함수 호출이 안 되며, Thinking 모드를 올리면 실시간 대화에 적합하지 않은 응답 속도가 나옵니다. SIP/WebSocket 연동, 컴플라이언스, CRM 통합 같은 실무 과제는 여전히 개발자 몫입니다.

“비용 90% 절감”이라는 말이 틀린 건 아닙니다. 다만 그 조건이 Preview 단계·특정 스택 비교·공식 미공개 가격 추정을 전제로 한다는 점은 함께 봐야 합니다. 직접 AI Studio에서 써보고, 실제 레이턴시와 도구 호출 동작을 확인하는 게 가장 정확합니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

  1. 구글 코리아 공식 블로그 — 제미나이 3.1 플래시 라이브 발표 (2026.03.26)
    https://blog.google/intl/ko-kr/company-news/technology/gemini-31-flash-live-kr/
  2. DeepMind 공식 모델카드 — Gemini 3.1 Flash Live (2026.03.26)
    https://deepmind.google/models/model-cards/gemini-3-1-flash-live/
  3. Google AI for Developers — Gemini 3.1 Flash Live Preview 공식 문서
    https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-live-preview
  4. Google AI for Developers — Live API 공식 문서
    https://ai.google.dev/gemini-api/docs/live
  5. Reddit B2BSaaS — 실측 비용 분석 (2026.03.28)
    https://www.reddit.com/r/B2BSaaS/comments/1s63b19/

⚠️ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini 3.1 Flash Live는 현재 Preview 단계이며, GA 전환 시 가격·기능·레이트 리밋이 달라질 수 있습니다. 모든 수치는 작성 시점(2026.03.31) 기준이며, 최신 정보는 Google 공식 문서에서 직접 확인하시기 바랍니다.

댓글 남기기


최신 글

  • 안심상속 원스톱 서비스 2026, 재산조회 신청 순서
    안심상속 원스톱 서비스 2026 기준으로 신청 가능 가족, 금융·토지·차량, 상속포기 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 전입세대확인서 열람 2026, 계약 전 주소 확인
    전입세대확인서 열람 2026 기준으로 주소와 동·호수, 기존 전입 여부, 등기부·확정일자 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 휴대폰 명의도용 신고 2026, 개통 내역 확인
    휴대폰 명의도용 신고 2026 기준으로 모르는 회선, 최근 인증·개통 문자, 통신사와 번호 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 카드 분실신고 재발급 2026, 자동이체 누락 체크
    카드 분실신고 재발급 2026 기준으로 카드 정지, 분실 전후 사용처, 새 카드 수령 전 결제 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 휴면보험금 조회 청구 2026, 내보험찾아줌 전 확인
    휴면보험금 조회 청구 2026 기준으로 보험금 종류, 계약자와 피보험자, 현재 담당 보험사 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 자동차 압류조회 해제 2026, 이전등록 전 체크
    자동차 압류조회 해제 2026 기준으로 압류·저당 표시, 기관과 금액, 반영 시점 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 자동차 의무보험 미가입 과태료 2026, 조회 전 확인
    자동차 의무보험 미가입 과태료 2026 기준으로 공백 발생일, 명의 이전일과 보험 시작일, 과태료 금액과 납부 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 육아휴직 급여 신청 2026, 회사 확인서 전 체크
    육아휴직 급여 신청 2026 기준으로 시작일과 대상 자녀, 회사 제출 상태, 고용보험 가입 기간 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • ChatGPT Plus 해지 환불 2026, 다음 결제 전 확인
    ChatGPT Plus 해지 환불 2026 기준으로 OpenAI 계정 구독 상태, 앱스토어 구독 목록, 자동 갱신 상태 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 배달앱 주문취소 환불 2026, 조리 시작 전 기준
    배달앱 주문취소 환불 2026 기준으로 가게 접수 전후, 가게 처리 상태, 사진과 주문 내역 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기