Gemini Embedding 2: “무조건 쓰면 이득”이 틀린 이유

Published on

2026년 3월 15일

📅 2026.03.15 기준 / gemini-embedding-2-preview (Public Preview)

2026년 3월 10일, 구글이 세계 최초 네이티브 멀티모달 임베딩 모델을 공개했습니다.
그런데 “텍스트만 쓰는 나도 당장 갈아타야 할까?” — 공식 수치를 보면 답이 달라집니다.

MMEB 68.9점 (전작 대비 최고점)
8,192 토큰 컨텍스트 (4배↑)
3,072차원 → 768차원 MRL 지원
텍스트 $0.20 / 오디오 $6.50 / 1M 토큰

Gemini Embedding 2는 구글 딥마인드가 2026년 3월 10일 공개 프리뷰로 출시한 임베딩 모델입니다. (출처: Google 공식 블로그, 2026.03.10) 임베딩이란 텍스트·이미지·영상·오디오·문서를 숫자 벡터로 변환해 의미적으로 유사한 것끼리 가까운 위치에 배치하는 기술입니다. 쉽게 말해 “의미 지도”를 만드는 AI 엔진입니다.

기존 임베딩 모델들은 텍스트 전용이었습니다. 이미지를 검색하려면 별도 모델을 쓰거나 이미지를 텍스트로 먼저 변환해야 했습니다. Gemini Embedding 2는 처음부터 텍스트·이미지·비디오·오디오·PDF를 단일 벡터 공간에 매핑하도록 설계된 첫 번째 “네이티브 멀티모달” 모델입니다. 모델 ID는 gemini-embedding-2-preview이며, Gemini API와 Vertex AI 양쪽에서 사용할 수 있습니다.

💡 이 글에서 다루는 핵심 포인트: 공식 가격표·벤치마크 수치·실제 마이그레이션 비용을 교차 분석한 결과, “무조건 갈아타는 게 이득”이라는 인터넷의 통념과 달리 사용 목적에 따라 손해가 될 수 있습니다.

▲ 목차로 돌아가기

5가지 모달리티를 하나의 공간에 — 실제로 어떻게 다른가

기존 RAG 파이프라인에서 회사 내부 지식베이스를 만들 때 가장 흔한 고민은 “PDF 안의 그래프는 어떻게 검색하지?”였습니다. 이미지를 텍스트로 변환(OCR), 오디오를 텍스트로 변환(STT), 그다음 텍스트 임베딩 — 이 다단계 과정이 바로 이른바 “번역 비용(Translation Tax)”입니다. 각 변환 단계마다 의미 손실이 발생하고, 레이턴시와 컴퓨팅 비용이 누적됩니다.

모달리티	입력 한도(1회 요청)	지원 형식
텍스트	최대 8,192 토큰	100개 이상 언어
이미지	요청당 최대 6개	PNG, JPEG
비디오	최대 128초	MP4, MOV
오디오	최대 80초	표준 오디오
PDF 문서	최대 6페이지	PDF

출처: Google 공식 블로그 (2026.03.10), blog.google

실제 성능 측면에서는 멀티모달 임베딩 표준 벤치마크인 MMEB(Massive Multimodal Embedding Benchmark)에서 68.9점을 기록했습니다. (출처: MindStudio AI, 2026.03) 이는 이전 상위 모델들이 기록하던 50~60점대 대비 눈에 띄는 격차입니다. 특히 비디오 검색(Vatex, MSR-VTT, Youcook2) 항목에서 가장 큰 차이를 보여, 비디오 아카이브 검색이 핵심인 조직에게는 실질적인 가치를 제공합니다.

▲ 목차로 돌아가기

잠깐, 이게 사실입니다 — 텍스트만 쓴다면 비용 계산부터

많은 분들이 오해하는 부분이 있습니다. “Gemini Embedding 2가 나왔으니 무조건 이게 최고”라는 생각인데요, 공식 가격표를 보면 이야기가 달라집니다.

모델	텍스트 가격 (1M 토큰)	최대 입력	멀티모달
Gemini Embedding 2	$0.20	8,192 토큰	텍스트·이미지·오디오·비디오·PDF
Gemini Embedding 001	$0.15	2,048 토큰	텍스트 전용
OpenAI text-embedding-3-large	$0.13	8,191 토큰	텍스트 전용
OpenAI text-embedding-3-small	$0.02	8,191 토큰	텍스트 전용

출처: tokencost.app, 2026.03 / OpenAI 공식 가격 페이지

텍스트만 임베딩한다면, OpenAI text-embedding-3-small은 Gemini Embedding 2보다 무려 10배 저렴합니다. 이 숫자가 독자 여러분께 의미하는 것은 이렇습니다. 월 10억 토큰을 처리하는 서비스를 운영한다면, 비용 차이는 월 $180(OpenAI)과 $200(Gemini 2) — 작은 차이처럼 보이지만, 100억 토큰 수준의 엔터프라이즈라면 매달 $1,800 vs $20,000 의 차이가 됩니다.

📊 직접 계산해 보세요:
월 처리 토큰 수(M) × $0.20 = Gemini Embedding 2 월 텍스트 비용
월 처리 토큰 수(M) × $0.02 = OpenAI text-embedding-3-small 월 비용
→ 텍스트만 쓴다면 Gemini 2가 10배 비쌉니다. 멀티모달을 써야 비로소 의미가 생깁니다.

▲ 목차로 돌아가기

MRL 768차원 트릭: 저장비 75% 아끼는 공식 공개

구글 공식 문서는 768차원을 “품질과 저장비의 최적 균형점”으로 권장합니다. (출처: Gemini API 공식 임베딩 문서) 숫자로 직접 확인해 보면:

📐 MRL 차원 축소 저장 비용 계산 (float32 기준, 벡터 1,000만 개)

• 3,072차원: 1,000만 × 3,072 × 4바이트 = 약 120GB
• 768차원: 1,000만 × 768 × 4바이트 = 약 30GB
→ 동일한 임베딩 비용으로 저장 공간을 75% 절감, 유사도 검색 속도도 약 4배 향상

이것이 독자 여러분께 의미하는 것은 명확합니다. 대규모 RAG 시스템에서 이 설정 하나만으로 월 클라우드 벡터 DB 스토리지 비용을 4분의 1로 줄일 수 있습니다. 트런케이션 후 정규화 코드는 단 3줄입니다.

# 768차원으로 트런케이션 후 정규화 (Python)
import numpy as np
def truncate_embedding(embedding, target_dim=768):
truncated = embedding[:target_dim]
norm = np.linalg.norm(truncated)
return [v / norm for v in truncated]

▲ 목차로 돌아가기

알고 보면 반대입니다 — 오디오·비디오 임베딩의 숨은 비용

“네이티브 오디오 임베딩으로 STT 없이 바로 처리 가능!”이라는 홍보 문구에 흥분하기 전에, 공식 가격표를 꼭 확인해야 합니다. Gemini Embedding 2는 모달리티별로 가격이 전혀 다릅니다.

모달리티	유료 (1M 토큰)	배치 50% 할인	텍스트 대비 배율
텍스트	$0.20	$0.10	기준 (1×)
이미지	$0.45	$0.225	2.25×
오디오	$6.50	$3.25	32.5×
비디오	$12.00	$6.00	60×

출처: tokencost.app Gemini Embedding 2 Pricing, 2026.03

오디오 임베딩 가격이 텍스트의 32.5배, 비디오는 60배입니다. 이것이 독자 여러분께 의미하는 바는 이렇습니다. 콜센터 녹음 파일 1,000시간을 임베딩한다고 가정하면, 텍스트 STT 후 처리하는 방식과 비교해 오히려 비용이 더 높아질 수 있습니다. 배치 API(50% 할인)를 활용해도 오디오는 여전히 텍스트의 16배 수준입니다.

⚠️ 주의: “STT 없이 네이티브 오디오 처리”는 기술적 편의성은 높이지만 비용은 더 비쌀 수 있습니다. 대용량 오디오 처리를 계획하고 있다면 기존 Whisper API + 텍스트 임베딩 조합과 총 비용을 반드시 비교해 보세요.

▲ 목차로 돌아가기

기존 시스템 마이그레이션: 재임베딩 없이는 불가능한 이유

현재 gemini-embedding-001이나 OpenAI 텍스트 임베딩을 쓰고 있다면, Gemini Embedding 2로 전환 시 기존 벡터를 그대로 재사용하는 것은 불가능합니다. 임베딩 공간이 완전히 다르기 때문입니다. 같은 문장을 두 모델에 넣으면 전혀 다른 3,072차원 벡터가 나오고, 이 벡터들을 같은 DB에 혼용하면 검색 결과가 완전히 망가집니다.

마이그레이션 시 반드시 거쳐야 하는 단계는 세 가지입니다. 첫째, 전체 데이터 코퍼스를 새 모델로 재임베딩(Re-embedding)합니다. 둘째, 기존 벡터 DB 인덱스를 삭제하고 새로운 3,072차원(또는 768차원 MRL) 인덱스를 다시 구성합니다. 셋째, 쿼리 임베딩 코드도 새 모델 ID로 교체합니다.

💡 공식 변경점 확인: 구글 공식 변경 이력(changelog)에 따르면, 기존 text-embedding-004 모델은 2026년 1월 14일 이미 종료되었습니다. gemini-embedding-001의 종료 일정은 아직 미공지이나, 신규 모델 출시 후 점진적 지원 종료가 예정됩니다. (출처: Gemini API 공식 Changelog)

한 가지 좋은 소식은, Gemini Embedding 2가 LangChain·LlamaIndex·Weaviate·Qdrant·ChromaDB 등 주요 벡터 DB 프레임워크와 공식 연동을 지원한다는 점입니다. 코드 변경량은 최소화되지만, 재임베딩을 위한 컴퓨팅 비용과 시간은 피할 수 없습니다.

▲ 목차로 돌아가기

나한테 맞는 선택은? 상황별 판단 가이드

공식 수치와 실사용 사례를 교차 분석한 결과, 아래와 같은 기준으로 선택하는 것이 합리적입니다. 각 상황에서 Gemini Embedding 2가 진짜 최선인지를 냉정하게 정리했습니다.

✅ Gemini Embedding 2 강력 추천

이미지·PDF·비디오 혼합 RAG 구축 / 법률 전자증거 검색 / 이커머스 상품 이미지+텍스트 통합 검색 / 이미 Google Cloud 인프라를 쓰는 조직 (네트워크 비용 절감 + 배치 API 50% 할인)

⚠️ 신중히 검토 필요

대용량 오디오 아카이브 검색 (기존 Whisper+텍스트 임베딩 vs 네이티브 오디오 비용 비교 필수) / 텍스트 전용인데 비용 최우선인 스타트업 / 온프레미스·에어갭 환경 필수 조직 (클라우드 전용 서비스이므로 사용 불가)

❌ 다른 선택이 더 나은 경우

텍스트 전용 소규모 RAG + 예산 최소화 목표 → OpenAI text-embedding-3-small($0.02/M) / 폐쇄망 환경에서 로컬 임베딩 필요 → BGE-M3 등 오픈소스 자체 호스팅

Sparkonomy의 사례가 보여주듯, 이 모델의 진짜 가치는 “멀티모달 파이프라인의 레이턴시를 70% 줄이고 의미 유사도 점수를 2배 높인” 것입니다. (출처: VentureBeat, 2026.03.11) 하지만 그 가치를 누리려면 실제로 멀티모달 데이터를 다루고 있어야 합니다. 텍스트 문서만 쌓여 있는 지식베이스라면, 솔직히 아직은 전환을 서두를 이유가 없습니다.

▲ 목차로 돌아가기

자주 묻는 질문

Q1. Gemini Embedding 2는 지금 바로 사용할 수 있나요?

2026년 3월 10일부터 Public Preview로 공개되어 있습니다. Gemini API와 Vertex AI 양쪽에서 즉시 접근 가능하며, Google AI Studio를 통해 무료 티어로 먼저 테스트할 수 있습니다. 단, 아직 “프리뷰” 상태이므로 GA(정식 출시) 전에 가격이나 기능이 변경될 가능성이 있습니다.

Q2. 한국어 성능은 어느 정도인가요?

공식 발표에 따르면 100개 이상의 언어를 지원하며, MTEB 다국어 벤치마크(MTEB Multilingual) 점수는 69.9입니다. 한국어 포함 다국어 RAG 시스템에서는 Gemini Embedding 001과 비교해 품질이 개선된 것으로 알려져 있습니다. 단, 한국어 단독 벤치마크 결과는 현재 공식 공개되지 않았습니다.

Q3. 기존 gemini-embedding-001에서 전환할 때 얼마나 걸리나요?

API 호출 코드 수정은 모델 ID 교체 수준으로 간단합니다. 그러나 핵심 병목은 전체 데이터를 재임베딩하는 과정입니다. 벡터 1,000만 개 기준으로 약 $2,000 (텍스트 기준 $0.20/M × 10M)의 재임베딩 비용이 발생합니다. 대용량 데이터라면 배치 API(50% 할인, $0.10/M)를 활용하면 비용을 절반으로 줄일 수 있습니다.

Q4. 개인 서버에 설치해서 쓸 수 있나요?

불가능합니다. Gemini Embedding 2는 클라우드 전용 API로만 제공됩니다. 온프레미스 또는 에어갭(인터넷 차단) 환경이 필요한 경우 BGE-M3, E5-large-v2 같은 오픈소스 임베딩 모델을 로컬에 호스팅하는 방식을 대안으로 고려해야 합니다.

Q5. 무료 티어로 실제 프로토타입을 만들 수 있나요?

네, 가능합니다. 단 무료 티어는 분당 60회 요청 제한이 있으며, 생성된 데이터가 구글의 제품 개선에 활용될 수 있습니다. 소규모 PoC나 개인 프로젝트 수준에서는 충분하지만, 대규모 인덱싱 작업이나 빠른 응답이 필요한 프로덕션 환경에서는 유료 티어로 전환이 필요합니다.

▲ 목차로 돌아가기

마치며

그러나 모든 기술이 그렇듯, 장점만큼 조건이 있습니다. 텍스트 전용 RAG라면 비용 대비 효과가 낮고, 대용량 오디오 처리라면 기존 STT+텍스트 임베딩 방식이 오히려 저렴할 수 있으며, 마이그레이션은 반드시 전체 재임베딩을 요구합니다. 제 개인적인 의견으로는, 2026년 현재 시점에서 Gemini Embedding 2는 “멀티모달 데이터를 이미 다루고 있는 팀”에게 최고의 선택이고, “텍스트만 쓰는 팀”에게는 아직 전환을 서두를 이유가 크지 않습니다. Public Preview인 만큼 GA 정식 출시 이후 가격 변동을 확인한 뒤 결정해도 늦지 않습니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

※ 본 포스팅은 2026년 3월 15일 기준으로 작성되었습니다. Gemini Embedding 2는 현재 Public Preview 상태이며, 정식 출시(GA) 이후 서비스 가격·정책·기능·모델 ID가 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으므로 최신 정보는 Google 공식 문서를 반드시 확인하시기 바랍니다.

멀티모달 임베딩, 벡터 데이터베이스, Gemini Embedding 2, Google AI Mode, RAG

Gemini Embedding 2: “무조건 쓰면 이득”이 틀린 이유

5가지 모달리티를 하나의 공간에 — 실제로 어떻게 다른가

잠깐, 이게 사실입니다 — 텍스트만 쓴다면 비용 계산부터

MRL 768차원 트릭: 저장비 75% 아끼는 공식 공개

알고 보면 반대입니다 — 오디오·비디오 임베딩의 숨은 비용

기존 시스템 마이그레이션: 재임베딩 없이는 불가능한 이유

나한테 맞는 선택은? 상황별 판단 가이드

자주 묻는 질문

마치며

📚 본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Gemini Embedding 2: “무조건 쓰면 이득”이 틀린 이유

5가지 모달리티를 하나의 공간에 — 실제로 어떻게 다른가

잠깐, 이게 사실입니다 — 텍스트만 쓴다면 비용 계산부터

MRL 768차원 트릭: 저장비 75% 아끼는 공식 공개

알고 보면 반대입니다 — 오디오·비디오 임베딩의 숨은 비용

기존 시스템 마이그레이션: 재임베딩 없이는 불가능한 이유

나한테 맞는 선택은? 상황별 판단 가이드

자주 묻는 질문

마치며

📚 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기