Gemini Embedding 2: “텍스트만 쓰면 된다” 믿으면 오디오·영상 검색 파이프라인 3배 날리는 이유

Published on

2026년 3월 17일

📅 2026.03.10 기준
gemini-embedding-2-preview
Public Preview

Gemini Embedding 2: “텍스트만 쓰면 된다” 믿으면 오디오·영상 검색 파이프라인 3배 날리는 이유

2026년 3월 10일, 구글은 조용히 AI 검색 인프라의 판을 바꿨습니다. 텍스트·이미지·영상·오디오·PDF를 단 하나의 벡터 공간에 담는 Gemini Embedding 2가 공개됐습니다. 지금 이 모델을 모르고 기존 파이프라인을 유지하면, 실제 비용과 복잡도 면에서 눈에 보이지 않는 손해가 쌓입니다.

3,072

출력 벡터 차원

68.9

MMEB 벤치마크 점수

5개

지원 입력 모달리티

100+

지원 언어

임베딩 모델이 텍스트에서 멀티모달로 진화한 배경

RAG(Retrieval-Augmented Generation) 시스템이 기업 AI 인프라의 핵심으로 자리 잡으면서, 오랫동안 방치됐던 문제가 수면 위로 올라왔습니다. 바로 “텍스트 이외의 콘텐츠는 어떻게 검색하는가”라는 질문입니다. 실제 기업 데이터의 상당 부분은 PDF 속 도표, 제품 이미지, 고객 상담 녹음, 교육용 동영상 같은 비텍스트 형식으로 존재합니다. 기존 텍스트 임베딩 모델은 이런 자료를 처리하기 위해 먼저 OCR이나 자동 음성 인식(ASR)으로 텍스트로 변환해야 했고, 그 과정에서 원본의 시각적·청각적 맥락이 사라졌습니다.

이 문제를 해결하려는 시도가 CLIP(이미지-텍스트 정렬), CLAP(오디오-텍스트 정렬) 같은 이중 인코더 모델이었습니다. 하지만 이 방식은 모달리티마다 별도 모델을 운영해야 하고, 각각의 벡터 공간이 달라 쿼리 시점에 결과를 합산하는 퓨전 로직이 복잡해졌습니다. 구글이 2026년 3월 10일 발표한 Gemini Embedding 2는 이 구조적 비효율을 정면으로 해결하려는 시도입니다. Gemini 아키텍처를 그대로 계승해 처음부터 멀티모달 이해를 내재화한 임베딩 모델로 설계됐습니다. (출처: Google 공식 블로그, 2026.03.10)

여기서 중요한 포인트는 “처음부터 함께 학습했느냐”의 차이입니다. 기존 멀티모달 솔루션들이 텍스트 모델과 이미지 모델을 사후에 정렬(alignment)한 구조였다면, Gemini Embedding 2는 단일 트랜스포머 백본이 모든 모달리티를 동시에 처리합니다. 이 구조적 차이가 이후에 설명할 교차 모달(Cross-modal) 검색 품질의 핵심 변수가 됩니다.

▲ 목차로 돌아가기

Gemini Embedding 2가 뭐가 다른가 — 공식 스펙 전부 해석

모델 ID: gemini-embedding-2-preview | 출시일: 2026년 3월 10일 | 상태: Public Preview (출처: Google Vertex AI 공식 문서, 2026.03.15 기준)

항목	Gemini Embedding 2	이전 모델(text-embedding-004)
지원 모달리티	텍스트·이미지·영상·오디오·PDF	텍스트만
출력 차원	최대 3,072 (MRL 축소 가능)	768
입력 토큰 한도	8,192 토큰	2,048 토큰
이미지 처리	요청당 최대 6장 (PNG/JPEG)	미지원
영상 처리	최대 120초 (MP4/MOV)	미지원
오디오 처리	최대 80초 (MP3/WAV), 직접 임베딩	미지원
PDF 처리	최대 6페이지, 직접 임베딩	미지원

출처: Google Vertex AI 공식 문서 (docs.cloud.google.com, 2026.03.15 업데이트)

입력 토큰 한도가 2,048에서 8,192로 4배 확장된 것은 단순 수치 이상의 의미가 있습니다. 기존 RAG 시스템에서 긴 문서를 억지로 잘게 쪼개야 했던 청킹(chunking) 전략의 필요성이 상당 부분 줄어든다는 뜻입니다. 맥락이 끊기지 않는 긴 텍스트를 그대로 임베딩할 수 있어 의미 손실이 줄어드는 구조적 이점이 생깁니다.

▲ 목차로 돌아가기

MMEB 68.9점의 진짜 의미 — 숫자 뒤에 숨겨진 맥락

💡 이 분석은 구글 공식 발표 수치와 기존 모델 비교 벤치마크를 교차 검토한 결과입니다. 단순히 “높은 점수”를 확인하는 게 아니라, 그 점수가 어떤 조건에서 나왔고 어디에 한계가 있는지를 함께 확인해야 올바른 판단이 가능합니다.

MMEB(Massive Multimodal Embedding Benchmark)는 멀티모달 임베딩 모델을 평가하는 현재 가장 포괄적인 벤치마크 중 하나입니다. 교차 모달 검색(텍스트→이미지, 이미지→텍스트), 시각적 문서 검색, 복합 이미지 검색, 분류 과제 등을 모두 포함합니다. Gemini Embedding 2 Flash는 이 벤치마크에서 68.9점을 기록했으며, 출시 시점 기준 경쟁 모델들이 50점대 중반~60점대 초반에 머물렀다는 점을 구글 공식 블로그는 명시했습니다. (출처: Google 공식 블로그 gemini-embedding-2, 2026.03.10)

이 수치가 의미하는 바를 직접 계산해볼 수 있습니다. 기존 최상위 모델이 60점대 초반이라고 가정하면, Gemini Embedding 2와의 격차는 약 8~9점입니다. 100점 만점 기준으로 약 8~9%포인트 향상이지만, 검색 시스템에서 상위 모델 간 1~2점 차이가 실제 검색 정확도 수%에 해당한다는 점을 감안하면 이 격차는 체감 품질 면에서 상당히 큰 차이입니다. 실제 서비스에서 1,000건 검색 기준 수십 건의 검색 결과 정확도 차이로 직결된다고 볼 수 있습니다.

그러나 주의해야 할 지점이 있습니다. 영상·오디오 임베딩은 아직 성숙 단계가 아닙니다. 구글 공식 문서와 MindStudio 분석 모두 영상 임베딩이 프레임 시퀀스 처리 방식으로 이루어지기 때문에, 동작 인식처럼 시간 흐름을 정밀하게 이해해야 하는 과제에서는 전용 비디오 이해 모델에 비해 성능이 제한적일 수 있다고 명시했습니다. 벤치마크 점수가 전 영역의 만능 성능을 보장하지는 않는다는 점을 인식하고 적용 범위를 판단해야 합니다.

▲ 목차로 돌아가기

오디오를 음성 인식 없이 바로 임베딩한다는 것의 파급력

💡 기존 블로그에서 잘 다루지 않는 내용입니다. “오디오를 지원한다”는 한 줄 설명 뒤에 실제로 어떤 파이프라인 비용이 사라지는지를 구체적인 단계 비교로 정리했습니다.

오디오 임베딩에 대해 많은 블로그가 단순히 “지원됩니다”라고 소개하고 끝냅니다. 그러나 Gemini Embedding 2가 오디오를 처리하는 방식에는 기존과 근본적으로 다른 지점이 있습니다. 바로 ASR(Automatic Speech Recognition), 즉 자동 음성 인식 단계를 건너뛴다는 점입니다. (출처: Google 공식 블로그, 2026.03.10 — “Audio: natively ingests and embeds audio data without needing intermediate text transcriptions”)

기존 오디오 처리 파이프라인과 비교하면 차이가 명확해집니다. 기존 방식에서는 ① 오디오 파일 수집 → ② ASR 모델(Whisper, Google STT 등)로 텍스트 변환 → ③ 텍스트 임베딩 생성 → ④ 벡터 저장 순서로 총 4단계가 필요했습니다. Gemini Embedding 2를 쓰면 ① 오디오 파일 수집 → ② API 직접 호출로 임베딩 생성 → ③ 벡터 저장, 3단계로 축소됩니다. 이 한 단계 차이가 인프라 비용과 지연 시간(latency)을 줄이고, ASR 오류로 인한 의미 왜곡도 원천 차단합니다. 예컨대 “냉동 삼겹살”을 ASR가 “냉동 삼겹살”이 아닌 다른 단어로 인식했다면 그 오류가 벡터에 그대로 반영됩니다. Gemini Embedding 2는 오디오 원본을 직접 처리하므로 이런 전파 오류(cascade error)가 발생하지 않습니다.

실제 적용 시나리오로 환산하면, 콜센터 상담 녹음 100만 건을 검색 가능하도록 인덱싱하는 경우를 생각해볼 수 있습니다. 기존에는 STT 비용 + 임베딩 비용을 이중으로 부담해야 했습니다. Gemini Embedding 2에서는 임베딩 비용만 발생합니다. 물론 현재 오디오 처리 한도가 요청당 80초로 제한되어 있어 장시간 녹음은 청킹이 필요하지만, 구조적 비용 절감 효과는 분명합니다.

▲ 목차로 돌아가기

MRL로 3072 → 768 차원 압축해도 품질이 유지되는 원리

“벡터 차원이 높을수록 좋지만, 저장 비용도 함께 폭등한다”는 걱정은 임베딩 시스템을 운영해본 사람이라면 누구나 한 번쯤 해봤을 것입니다. 3,072차원 벡터를 1억 건 저장하면 float32 기준 약 1.2TB의 저장 공간이 필요합니다. 768차원이라면 약 0.3TB로 4분의 1로 줄어듭니다. 이 차이는 클라우드 비용으로 수십만 원에서 수백만 원 단위 차이가 됩니다.

Gemini Embedding 2가 채택한 MRL(Matryoshka Representation Learning)은 이 딜레마를 상당 부분 해결합니다. MRL의 핵심은 벡터 앞쪽 차원에 가장 중요한 의미 정보를 집약적으로 담는 방식으로 학습한다는 것입니다. 러시아 인형 마트료시카처럼 안쪽 인형(낮은 차원)도 그 자체로 완결된 의미를 갖도록 설계됩니다. 이 구조 덕분에 3,072차원 벡터를 768이나 1,536 차원으로 단순 잘라내더라도 검색 품질이 급격히 떨어지지 않습니다.

📊 직접 계산해볼 수 있는 저장 비용 비교

벡터 1억 건 저장 기준 (float32 = 4바이트/차원):
• 3,072차원: 1억 × 3,072 × 4B = 약 1.23 TB
• 1,536차원: 1억 × 1,536 × 4B = 약 0.61 TB (↓50% 절감)
• 768차원: 1억 × 768 × 4B = 약 0.31 TB (↓75% 절감)

구글은 3,072 / 1,536 / 768 세 가지를 권장 축소 차원으로 공식 명시합니다. 768차원에서도 대부분의 검색 과제에서 품질이 유지됩니다. (출처: Google Vertex AI 공식 문서, 2026.03.15)

이 수치가 의미하는 바를 한 문장으로 정리하면, 3,072차원의 최고 품질을 원하는 경우와 비용이 우선인 경우를 동일한 모델, 동일한 API 호출로 유연하게 선택할 수 있다는 뜻입니다. 초기 구축 시 고차원으로 시작하고, 트래픽과 비용이 증가하면 재임베딩 없이 잘라내는 방식으로 비용 최적화가 가능합니다.

▲ 목차로 돌아가기

“단일 벡터로 모두 해결”이 실제로 안 되는 세 가지 상황

💡 Gemini Embedding 2 관련 국내 콘텐츠 대부분이 기능 소개에 그칩니다. 이 섹션은 오픈소스 벡터DB 전문 기업 Milvus의 공식 기술 블로그를 교차 분석해, 실제 운영 환경에서 단일 임베딩 모델만으로 해결이 안 되는 구체적 시나리오를 도출한 내용입니다.

Gemini Embedding 2 출시 이후 “이 모델 하나면 모든 검색 문제가 해결된다”는 식의 요약이 많이 돌고 있습니다. 그런데 실제 운영 환경에서는 단일 통합 벡터로는 커버하기 어려운 상황이 분명히 존재합니다. (분석 출처: Milvus 공식 기술 블로그, 2026.03.13)

첫째, 의미적 맥락이 아예 겹치지 않는 다차원 생체 인식 시스템입니다. 얼굴 벡터, 성문(voiceprint) 벡터, 지문 벡터, 홍채 벡터는 서로 완전히 독립적인 생물학적 특징을 담고 있습니다. 이것을 하나의 통합 벡터로 압축하면 각 특징이 상쇄되거나 희석됩니다. 이런 경우에는 모달리티별 독립 컬럼과 멀티벡터 검색이 반드시 필요합니다.

둘째, 정확한 키워드 매칭과 의미 검색을 동시에 요구하는 이커머스 환경입니다. “빨간 나이키 에어맥스 260mm”를 검색할 때 의미(빨간 운동화, 나이키)는 Dense Vector로, 정확한 모델명과 사이즈는 BM25 기반 Sparse Vector로 따로 처리해야 최적의 결과가 나옵니다. 통합 벡터는 “운동화 같은 느낌”을 잘 잡지만, 정확한 상품 코드나 특정 SKU 식별에는 키워드 정확도가 떨어집니다.

셋째, 에이전트형 AI 시스템의 도구 검색입니다. 개발 보조 AI가 대화 히스토리(의미 기반)와 파일명·CLI 명령어(정확한 문자열 매칭)를 동시에 검색해야 하는 경우, 두 가지 검색 목표가 같은 벡터 공간에 들어가면 서로를 방해합니다. 이런 환경에서는 Gemini Embedding 2가 멀티모달 의미 벡터 컬럼을 담당하고, BM25 희소 벡터 컬럼이 병행되는 하이브리드 구성이 최적입니다.

▲ 목차로 돌아가기

비용 구조와 지금 당장 시작하는 법

💰 Gemini Embedding 2 요금 구조

Vertex AI 기준 텍스트 입력은 100만 토큰당 $0.15(약 220원)으로, 이전 gemini-embedding-001 수준과 유사합니다. 이미지·영상·오디오 입력 가격은 Vertex AI 공식 요금 페이지를 통해 최신 확인이 필요합니다. Gemini API(Google AI Studio)를 통한 개발 단계 사용은 무료 티어가 제공됩니다. 단, 프로덕션 대규모 운영 시에는 월 단위 사용량 예측이 필수입니다. (출처: cloudprice.net Gemini Embedding 2 Preview, 2026.03 기준)

⚠️ 온프레미스(On-premises) 환경에서는 사용 불가합니다. Gemini Embedding 2는 순수 클라우드 API 방식입니다. 데이터 보안 정책상 외부 API 호출이 제한된 환경(금융 내부망, 군 보안망 등)에서는 대안 모델을 검토해야 합니다. (출처: MindStudio 공식 분석 블로그, 2026.03.11)

🚀 시작 3단계

STEP 1 Google AI Studio에서 API 키 발급 (무료)

STEP 2 pip install google-genai 설치 후 gemini-embedding-2-preview 모델로 첫 임베딩 호출

STEP 3 공식 Colab 노트북으로 텍스트·이미지 동시 임베딩 실습

🗓️ 주의: 임베딩 공간 버전 관리

모델 버전이 올라가면 새 버전으로 생성한 임베딩은 기존 임베딩과 직접 비교가 불가합니다. 장기 운영 시스템이라면 gemini-embedding-2-flash-001처럼 고정 버전(pinned version)을 사용하고, 모델 업그레이드 시 전체 재임베딩(re-embedding) 계획을 수립해야 합니다. 이를 간과하면 검색 결과가 조용히 오염되는 운영 사고가 발생할 수 있습니다. (출처: MindStudio 공식 분석, 2026.03.11)

▲ 목차로 돌아가기

자주 묻는 질문 5가지

Q1. Gemini Embedding 2는 완전 무료로 사용할 수 있나요?

Google AI Studio를 통한 개발용 테스트는 무료 티어로 시작할 수 있습니다. 다만 프로덕션 수준의 대량 호출(수백만 토큰 이상)은 Vertex AI 과금 체계가 적용됩니다. Vertex AI 기준 텍스트 입력은 100만 토큰당 약 $0.15이며, 이미지·영상·오디오 입력은 별도 요금이 책정됩니다. (출처: cloudprice.net, 2026.03 기준) 프로덕션 전환 전에 월별 사용량을 사전 계산하는 것을 권장합니다.

Q2. 한국어 문서를 임베딩할 때 성능이 영어만큼 나오나요?

Q3. 기존 text-embedding-004로 만든 벡터를 Gemini Embedding 2 벡터와 혼용할 수 있나요?

혼용이 불가합니다. 두 모델은 별개의 학습 과정을 거쳤기 때문에 각자의 벡터 공간이 다릅니다. 기존 text-embedding-004로 생성한 벡터와 Gemini Embedding 2로 생성한 벡터를 같은 인덱스에 저장하고 코사인 유사도로 비교하면 의미 없는 결과가 나옵니다. 전환 시에는 기존 데이터 전체를 새 모델로 재임베딩해야 합니다. (출처: MindStudio 공식 분석, 2026.03.11)

Q4. Public Preview 상태인데 상용 서비스에 바로 적용해도 될까요?

Public Preview는 API 인터페이스나 응답 스펙이 GA(General Availability) 이전에 변경될 수 있음을 뜻합니다. 운영 환경 적용 시 몇 가지 주의가 필요합니다. 첫째, 현재 지원 리전이 Vertex AI 기준 us-central1로 제한됩니다. 한국 리전 근접성이 중요한 서비스라면 지연(latency)을 측정해야 합니다. 둘째, SLA(서비스 수준 보장) 조건이 GA 모델보다 낮을 수 있습니다. 비핵심 기능의 파일럿 도입 → 성능 검증 → 단계적 확대 순서를 권장합니다.

Q5. OpenAI text-embedding-3-large와 비교했을 때 어느 쪽이 나은가요?

순수 텍스트 검색 성능만 놓고 보면 두 모델은 MTEB 벤치마크 기준 경쟁력이 비슷합니다. 그러나 이미지·영상·오디오·PDF가 포함된 멀티모달 데이터가 조금이라도 있다면 Gemini Embedding 2가 압도적으로 유리합니다. OpenAI text-embedding-3-large는 텍스트 전용 모델이라 다른 모달리티를 직접 처리할 수 없기 때문입니다. (출처: MindStudio 공식 비교 분석, 2026.03.11) 시스템에 멀티모달 콘텐츠가 없고 텍스트만 다룬다면 기존 텍스트 전용 모델도 충분히 합리적인 선택입니다.

▲ 목차로 돌아가기

마치며 — 총평

Gemini Embedding 2는 임베딩 기술의 단순한 업그레이드가 아니라, AI 검색 인프라의 기본 가정을 바꾸는 전환점입니다. 지금까지 “임베딩 = 텍스트 처리”라는 전제 아래 구축된 파이프라인 상당수는 비텍스트 데이터 처리를 위해 여러 모델을 조합하거나, 원본 데이터를 텍스트로 변환하는 손실이 큰 전처리 단계를 거쳤습니다. Gemini Embedding 2는 그 불필요한 단계를 구조적으로 제거합니다.

그렇다고 이 모델이 모든 상황의 만능 해결책인 것은 아닙니다. 영상 임베딩은 시간적 추론 측면에서 여전히 성숙 단계에 있고, 생체 인식처럼 의미 공간이 완전히 다른 벡터를 다루는 환경에서는 멀티벡터 접근이 여전히 필요합니다. 온프레미스 데이터 보안이 필수인 환경에서는 클라우드 API라는 구조적 한계가 발목을 잡습니다. 이 세 가지 제약을 명확히 인식한 채 도입을 검토하는 것이 현명한 접근입니다.

개인적으로 가장 인상적인 부분은 MRL을 통한 유연한 차원 축소입니다. 품질과 비용 사이에서 선택을 강요하는 구조가 아니라, 동일한 모델 한 번의 임베딩으로 두 가지 요구를 모두 충족할 수 있다는 설계 철학이 돋보입니다. 지금 당장 RAG 시스템을 구축하거나 기존 검색 파이프라인을 점검하고 있다면, Gemini Embedding 2가 첫 번째 선택지에 올라와야 할 이유는 충분합니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

Google 공식 블로그 — Gemini Embedding 2: Our first natively multimodal embedding model (2026.03.10)
Google Vertex AI 공식 문서 — Gemini Embedding 2 Model Spec (2026.03.15 기준)
Gemini API 공식 changelog — Gemini API Release Notes (2026.03.10 업데이트)
MindStudio 공식 기술 블로그 — What Is Gemini Embedding 2? (2026.03.11)
Milvus 공식 기술 블로그 — Will Gemini Embedding 2 Kill Multi-Vector Search? (2026.03.13)
Google Developers Blog — Gemini API에서 Gemini Embedding 정식 출시 (2025.07.14)

⚠️ 면책 조항: 본 포스팅은 2026년 3월 17일 기준으로 작성되었습니다. Gemini Embedding 2는 현재 Public Preview 상태이며, 본 포스팅 작성 이후 서비스 정책·UI·기능·요금·지원 리전이 변경될 수 있습니다. 최신 정보는 반드시 Google 공식 Vertex AI 문서에서 직접 확인하시기 바랍니다. 본 내용은 정보 제공 목적이며 특정 서비스 도입에 대한 보증이 아닙니다.

멀티모달 임베딩, 벡터 데이터베이스, 구글 AI 2026, Gemini Embedding 2, RAG

Gemini Embedding 2: “텍스트만 쓰면 된다” 믿으면 오디오·영상 검색 파이프라인 3배 날리는 이유

Gemini Embedding 2: “텍스트만 쓰면 된다” 믿으면 오디오·영상 검색 파이프라인 3배 날리는 이유

임베딩 모델이 텍스트에서 멀티모달로 진화한 배경

Gemini Embedding 2가 뭐가 다른가 — 공식 스펙 전부 해석

MMEB 68.9점의 진짜 의미 — 숫자 뒤에 숨겨진 맥락

오디오를 음성 인식 없이 바로 임베딩한다는 것의 파급력

MRL로 3072 → 768 차원 압축해도 품질이 유지되는 원리

“단일 벡터로 모두 해결”이 실제로 안 되는 세 가지 상황