Gemini Embedding 2, 4가지 테스트에서 이긴 것과 진 것

magister

Published on

2026년 3월 29일

IT/AI

📅 2026.03.10 기준 / gemini-embedding-2-preview

구글이 “최초 멀티모달 임베딩 모델”이라고 발표했습니다. 텍스트·이미지·동영상·오디오·PDF를 하나의 벡터 공간에 넣는다는 건 사실입니다. 근데 공식 블로그에서 꺼내지 않은 수치가 따로 있습니다.

0.997

다국어 교차검색 R@1

0.928

교차모달 R@1 (2위)

5모달

지원 모달리티 수

10배

vs OpenAI 텍스트 단가 차이

임베딩 모델이 왜 갑자기 중요해졌나

RAG(Retrieval-Augmented Generation)가 기업 AI의 주류 구현 방식이 된 뒤로, 임베딩 모델은 AI 파이프라인의 바닥을 결정하는 요소가 됐습니다. 챗GPT나 Gemini 같은 생성 모델이 화려한 전면에 있다면, 임베딩 모델은 “어떤 정보를 가져올지”를 결정하는 창고 정렬 시스템입니다. 이게 틀리면 생성 품질이 아무리 좋아도 소용없습니다.

2026년 들어 기업 데이터가 텍스트 밖으로 넓어졌습니다. 회의 녹음 파일, 제품 이미지, 계약서 PDF, 영상 클립이 검색 대상이 됐는데, 기존 텍스트 임베딩 모델은 이걸 처리하지 못합니다. 이미지는 CLIP 계열, 오디오는 Whisper 전사 후 텍스트 임베딩, 동영상은 별도 모델 — 이렇게 세 개 이상의 모델을 벡터 공간 정렬까지 하며 연결해야 했습니다.

2026년 3월 10일 구글이 Gemini Embedding 2를 발표했습니다. 텍스트·이미지·동영상·오디오·PDF를 단일 임베딩 공간에 넣는 첫 번째 상용 모델입니다. (출처: Google DeepMind 공식 블로그, 2026.03.10)

▲ 목차로 돌아가기

Gemini Embedding 2, 공식 스펙 먼저 정리

모델 ID와 기본 스펙

모델 ID는 gemini-embedding-2-preview이고, 현재 퍼블릭 프리뷰 상태입니다. “preview” 꼬리표가 붙어 있으므로 가격과 동작 방식이 GA 전 변경될 수 있습니다. 구글의 공식 Vertex AI 문서에 따르면 출시일은 2026년 3월 10일, 지식 컷오프는 2025년 11월입니다. (출처: Vertex AI 공식 문서, 2026.03.27 업데이트)

항목	Gemini Embedding 2	이전 버전 (embedding-001)
지원 모달리티	텍스트·이미지·동영상·오디오·PDF	텍스트 전용
최대 입력 토큰	8,192	2,048
출력 차원	128~3,072 (MRL)	768~3,072
이미지 입력 한도	요청당 최대 6장 (PNG, JPEG)	미지원
동영상 입력 한도	최대 120초 (MP4, MOV)	미지원
오디오 입력 한도	최대 80초 (MP3, WAV)	미지원
PDF 입력 한도	요청당 최대 6페이지	미지원

왜 “네이티브” 멀티모달인가

기존 CLIP 계열은 텍스트 인코더와 이미지 인코더가 출력 레이어에서만 정렬됩니다. 중간 레이어에서는 서로를 모릅니다. Gemini Embedding 2는 Gemini 아키텍처의 트랜스포머 블록이 처음부터 다섯 가지 모달리티를 함께 처리하기 때문에, 이미지와 텍스트 설명의 관계를 훨씬 깊은 표현 층에서 포착합니다. 오디오를 텍스트 전사 없이 직접 임베딩한다는 것도 같은 이유입니다.

▲ 목차로 돌아가기

이기는 영역: 다국어·장문서에서 수치로 확인

💡 공식 발표문과 독립 벤치마크 수치를 함께 놓고 보니, 구글이 강조하지 않은 항목에서 오히려 격차가 더 컸습니다.

다국어 교차검색: 성어(成語) 수준까지 R@1 100%

Milvus 팀이 공개한 CCKM 벤치마크에서 Gemini Embedding 2의 다국어 교차검색 R@1은 0.997입니다. 테스트된 10개 모델 중 1위이며, 가장 어려운 난도(중국어 관용구 ↔ 영어 대응 표현 매칭)에서 유일하게 1.000을 기록했습니다. OpenAI text-embedding-3-large는 같은 항목에서 0.967, 하위 경량 모델들은 0.120 수준입니다. (출처: Milvus CCKM Benchmark, 2026.03) 다국어 지식 베이스를 운용하거나 한국어 질의로 영어 문서를 찾아야 한다면, 지금 선택지 중 가장 믿을 만한 숫자입니다.

장문서 검색: 32,000자에서 정확도 저하 없음

같은 벤치마크의 핵심 정보 검색 항목에서 Gemini Embedding 2는 4K~32K 문자 문서 전 구간에서 정확도 1.000을 유지했습니다. 비교 대상 중 32K까지 컨텍스트 창이 닿는 유일한 모델입니다. OpenAI text-embedding-3-large는 8K까지만 지원하고 그 범위에서 1.000이지만, 그보다 긴 문서는 처음부터 처리할 수 없습니다. 법률 계약서, 긴 연구 보고서, 기업 내부 문서처럼 수만 자가 넘는 텍스트를 RAG에 활용한다면, 토큰 한도 문제로 청크를 잘게 쪼개는 작업량이 줄어듭니다.

동영상 검색: 경쟁사 대비 8점 이상 차이

구글 공식 발표에 따르면 동영상 검색 벤치마크(Vatex, MSR-VTT, Youcook2 기준) 점수 68.8 — Amazon Nova 2는 60.3, Voyage Multimodal 3.5는 55.2입니다. (출처: Google DeepMind 공식 블로그, 2026.03.10) 이 격차는 구글 자체 비교이므로 독립 검증이 쌓이기 전까지는 참고 수준으로 봐야 합니다. 단, 오디오와 동영상을 네이티브로 처리하는 상용 API 자체가 현재 없기 때문에 비교 대상이 제한된다는 점도 함께 감안해야 합니다.

▲ 목차로 돌아가기

지는 영역: 교차모달은 오픈소스가 앞섰습니다

💡 공식 블로그는 자사 모델끼리 비교했는데, 제3자 벤치마크에 알리바바 오픈소스 모델을 넣자 순위가 바뀌었습니다.

교차모달 검색 1위는 Qwen3-VL-2B

CCKM 벤치마크의 교차모달 검색(텍스트 쿼리 → 이미지 매칭, 이미지 쿼리 → 텍스트 매칭) 항목에서 Gemini Embedding 2는 R@1 0.928입니다. 1위는 알리바바 Qwen3-VL-2B로 0.945입니다. 매개변수 20억 개짜리 오픈소스 모델이 Google의 상용 클로즈드 API를 앞선 겁니다. (출처: Milvus CCKM Benchmark, 2026.03)

이유는 모달리티 갭입니다. 임베딩 모델이 텍스트와 이미지를 같은 벡터 공간에 매핑해도, 실제 클러스터는 서로 다른 위치에 뭉칩니다. 이 거리를 모달리티 갭이라고 합니다. Qwen3-VL-2B의 갭은 0.25, Gemini Embedding 2의 갭은 0.73입니다. 갭이 작을수록 텍스트 벡터와 이미지 벡터가 바로 옆에 있어 교차 검색 정확도가 높습니다.

모델	교차모달 R@1	모달리티 갭	유형
Qwen3-VL-2B	0.945	0.25	오픈소스
Gemini Embedding 2	0.928	0.73	상용 API
Voyage Multimodal 3.5	0.900	0.59	상용 API
CLIP ViT-L-14	0.768	0.83	오픈소스 (2021 기준)

차원 압축은 꼴찌입니다 — 조건부로

MRL(Matryoshka Representation Learning)을 활용해 벡터 차원을 3,072에서 256으로 줄였을 때 품질이 얼마나 유지되는지를 측정한 항목에서 Gemini Embedding 2는 Spearman ρ 0.668로 꼴찌입니다. Voyage Multimodal 3.5는 0.880, Jina Embeddings v4는 0.833입니다. 단, 전체 차원에서의 절대 성능은 강하고, 이 항목은 차원을 줄여 스토리지를 아끼는 경우에만 문제가 됩니다. 3,072 차원을 그대로 쓴다면 이 수치는 해당 사항이 없습니다. 768 차원 추천은 구글 공식 권장 사항이며, 이 구간에서는 품질 저하가 미미하다고 문서에 명시돼 있습니다. (출처: Gemini API 공식 가이드)

▲ 목차로 돌아가기

요금 구조, 텍스트 전용이면 비쌉니다

모달리티	Paid 단가	Batch 단가 (50% 할인)
텍스트	$0.20 / 1M 토큰	$0.10 / 1M 토큰
이미지	$0.45 / 1M 토큰	$0.225 / 1M 토큰
오디오	$6.50 / 1M 토큰	$3.25 / 1M 토큰
동영상	$12.00 / 1M 토큰	$6.00 / 1M 토큰

계산해보면 납득이 되는 경우

파이프라인 비용으로 생각하면 다릅니다. 텍스트 임베딩 + CLIP 이미지 임베딩 + Whisper 전사 + 오디오 임베딩, 이렇게 세 개 모델의 API 비용과 벡터 공간 정렬 엔지니어링 비용을 합산하면, 단일 모델 $0.20이 실질적으로 싸질 수 있습니다. Sparkonomy라는 크리에이터 플랫폼은 기존 세 개 모델 파이프라인을 Gemini Embedding 2 하나로 교체하며 지연 시간이 70% 줄었다고 밝혔습니다. (출처: Google DeepMind 공식 블로그, 2026.03.10)

반대로 텍스트만 쓰고 멀티모달 계획이 없다면 이 계산은 성립하지 않습니다. 1백만 문서를 문서당 약 500토큰으로 임베딩하면 5억 토큰 — 배치 가격 기준 약 $50입니다. OpenAI small 기준 $10. 이 차이를 감당할 이유가 없으면 전환할 이유도 없습니다.

▲ 목차로 돌아가기

기존 모델에서 갈아탈 때 생기는 문제

💡 마이그레이션 가이드를 보다가 발견한 부분인데, 공식 발표 어디에도 이게 선명하게 나오지 않습니다.

벡터 공간이 완전히 달라서 기존 인덱스와 섞을 수 없습니다

실제로 전환하려면 이렇게 해야 합니다. 먼저 새 모델로 만든 섀도 인덱스를 병렬로 구축하면서, 기존 운영 시스템은 그대로 유지합니다. 이후 A/B 테스트로 코사인 유사도 임계값을 재보정합니다 — 모델이 바뀌면 임계값도 달라집니다. 품질이 확인된 뒤에만 전환합니다. 이 과정이 번거로울수록 배치 API($0.10/1M 토큰)를 써서 비용을 줄이는 게 현실적입니다.

EmbeddingGemma: 온디바이스 보완재

구글은 같은 시점에 EmbeddingGemma도 공개했습니다. Gemma 3 기반 3억 800만 매개변수 오픈소스 텍스트 임베딩 모델로, 양자화 시 200MB 미만이고 EdgeTPU에서 22ms 이내 추론이 가능합니다. 컨텍스트 창 2,048 토큰, 100개 이상 언어 지원, MTEB에서 500M 이하 오픈 다국어 모델 1위입니다. 멀티모달은 없고 텍스트 전용이라 Gemini Embedding 2의 직접 대체재가 아닙니다. 개인정보 때문에 데이터를 외부로 내보낼 수 없는 모바일·온프레미스 환경에서는 EmbeddingGemma, 클라우드 멀티모달 파이프라인에서는 Gemini Embedding 2를 쓰는 구조입니다. 구글 임베딩 생태계로 유입시키는 진입로 역할을 하고 있습니다.

▲ 목차로 돌아가기

Q&A

Q. 지금 당장 텍스트 RAG만 운영 중인데, Gemini Embedding 2로 바꿔야 할까요?

굳이 바꿀 필요는 없습니다. 텍스트 전용 파이프라인이라면 OpenAI text-embedding-3-large($0.13/1M)나 text-embedding-3-small($0.02/1M)이 가격 대비 성능에서 낫습니다. 단, 6~12개월 안에 이미지나 영상 데이터를 검색에 추가할 계획이 있다면 처음부터 Gemini Embedding 2로 시작하는 게 나중에 전체 재임베딩 비용을 아낍니다.

Q. 768 차원으로 줄이면 품질이 얼마나 떨어지나요?

구글 공식 문서에서 768 차원을 “품질 손실이 미미한 프로덕션 추천값”으로 명시하고 있습니다. 스토리지는 3,072 차원 대비 4분의 1이 됩니다. 100만 벡터 기준 12GB → 3GB. 코사인 유사도 검색 속도도 비례해서 빨라집니다. 다만 MRL 압축 품질 자체는 Voyage나 Jina v4에 비해 Gemini가 덜 최적화돼 있으므로, 256 차원 이하로 극단적으로 줄이는 시나리오에서는 Voyage가 더 안전합니다.

Q. 오디오·동영상 임베딩 단가가 텍스트보다 30~60배 비쌉니다. 실제로 쓸 수 있는 수준인가요?

배치 기준 동영상은 1M 토큰당 $6. 동영상 1분이 약 900 프레임으로 토큰화되면 대략 1분 동영상 임베딩에 $0.005 수준입니다(추정, 공식 프레임당 가격 $0.00079/frame 기준). 대규모 영상 아카이브 인덱싱이 아니라 개별 영상 단위 검색이라면 허용 범위입니다. 방송사 Paramount Skydance는 이 모델로 영상 자산 검색 Recall@1을 85.3%로 끌어올렸다고 밝혔습니다. (출처: Google DeepMind 공식 블로그, 2026.03.10)

Q. 교차모달 검색이 오픈소스 Qwen에 진다는 게 실제 서비스에서도 차이가 느껴지나요?

벤치마크 차이(0.945 vs 0.928)는 17/1000입니다. 실제 쿼리 패턴과 이미지 구성에 따라 체감 차이는 크게 달라집니다. 단, Qwen3-VL-2B는 텍스트+이미지 3모달인 반면 Gemini는 5모달입니다. 오디오나 PDF를 동시에 검색해야 한다면 Qwen은 선택지가 아닙니다. 텍스트+이미지만이라면 자체 서버 운영 비용을 감당할 수 있을 때 Qwen이 교차모달 정확도에서는 유리합니다.

Q. “preview” 꼬리표가 사라지면 가격이 바뀔 가능성이 있나요?

구글이 공식 답변을 내놓지 않은 부분입니다. 이전 사례인 gemini-embedding-001의 경우, 프리뷰 때와 GA 때 가격이 동일했습니다. 다만 preview 단계에서는 동작 방식과 가격이 변경될 수 있음을 공식 가격 페이지에 명시하고 있습니다. 대규모 인덱싱 전에 GA 전환 시점을 확인하는 편이 안전합니다.

▲ 목차로 돌아가기

마치며

교차모달에서 오픈소스에 밀리고, MRL 압축 효율에서 꼴찌인 건 사실입니다. 그렇다고 이 모델의 가치가 작아지는 건 아닙니다. 다국어 교차검색 0.997, 32K 장문서 검색 1.000, 5모달 단일 API — 이 세 가지가 동시에 필요한 팀이라면 지금 쓸 수 있는 다른 선택지가 없습니다.

개인적으로 흥미로운 건 EmbeddingGemma와의 관계입니다. 온디바이스 진입로를 깔고, 멀티모달이 필요해지면 자연스럽게 클라우드 API로 올라오게 되는 구조입니다. 단순 모델 출시가 아니라 생태계 진입 경로 설계처럼 보입니다. 이 판단이 맞다면 시간이 지날수록 갈아타기 비용이 높아질 수 있습니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

⚠️ 면책 조항: 본 포스팅은 2026년 3월 29일 기준으로 작성됐습니다. Gemini Embedding 2는 현재 퍼블릭 프리뷰 상태이며, 본 포스팅 작성 이후 서비스 정책·가격·UI·기능이 변경될 수 있습니다. 최신 정보는 Gemini API 공식 릴리스 노트에서 확인하세요. 본문 내 수치 중 추정 표기된 값은 공식 단가를 기반으로 계산한 것이며, 실제 과금과 다를 수 있습니다.

멀티모달 임베딩, Gemini API, Gemini Embedding 2, 임베딩 모델 비교, RAG

Gemini Embedding 2, 4가지 테스트에서 이긴 것과 진 것

임베딩 모델이 왜 갑자기 중요해졌나