Gemini Embedding 2, MTEB 1위가 이 조건엔 역부족입니다

Published on

in

Gemini Embedding 2, MTEB 1위가 이 조건엔 역부족입니다

2026.03.10 기준 / gemini-embedding-2-preview

구글 딥마인드가 2026년 3월 10일 공개한 Gemini Embedding 2는 텍스트·이미지·영상·오디오·PDF를 단일 벡터 공간에 올리는 최초의 네이티브 멀티모달 임베딩 모델입니다. MTEB English 점수 68.32로 현재 1위지만, 막상 써보니 특정 조건에서는 2B짜리 오픈소스 모델에도 뒤처집니다.

🏆 MTEB English 68.32 (1위)
🎯 5가지 모달리티 지원
⚠️ Preview 상태 (정식 출시 전)

기존 임베딩 모델의 한계는 명확했습니다. 이미지는 CLIP, 오디오는 Whisper로 텍스트 변환 후 다시 임베딩, 영상은 별도 파이프라인. 이렇게 서로 다른 모달리티를 각각 다른 벡터 공간에 올린 다음, 공간끼리 정렬하는 엔지니어링 작업이 필요했습니다.

Gemini Embedding 2는 Gemini 아키텍처 기반의 공유 Transformer 구조를 써서 텍스트·이미지·영상·오디오·PDF 5가지 모달리티를 처음부터 같은 벡터 공간에 매핑합니다. 교차 모달 상호작용이 출력 레이어에서만 일어나는 CLIP 방식과 달리, 중간 레이어에서부터 의미가 융합됩니다. 구글 딥마인드는 이를 “네이티브 멀티모달”이라고 부릅니다.

결과적으로 단일 API 엔드포인트 하나로 “이 이미지와 이 텍스트를 합쳐서 임베딩해줘”가 됩니다. 세 개 모델을 붙잡고 씨름하던 파이프라인이 API 한 줄로 줄어드는 셈입니다. 파라운트 스카이댄스의 VP Seth Georgian은 “텍스트 쿼리가 미전사 마이크로 표현까지 정확히 찾아낸다”고 했고, 텍스트-투-비디오 Recall@1이 85.3%까지 올랐다고 밝혔습니다. (출처: Google Blog, 2026.03.10)

▲ 목차로 돌아가기

공식 스펙과 실제 제한 조건 — 공식 문서에 딱 이렇게 나옵니다

모델 코드는 gemini-embedding-2-preview이고, 텍스트 전용 안정 버전인 gemini-embedding-001은 별도로 유지됩니다. (출처: Google AI 개발자 문서, ai.google.dev/gemini-api/docs/embeddings)

항목 gemini-embedding-2-preview gemini-embedding-001
지원 모달리티 텍스트·이미지·영상·오디오·PDF 텍스트 전용
입력 토큰 한도 8,192 토큰 2,048 토큰
기본 출력 차원 3,072 (권장: 768/1536/3072) 3,072 (동일)
이미지 제한 요청당 최대 6장 (PNG/JPEG) 해당 없음
영상 제한 최대 120초 (MP4/MOV) 해당 없음
오디오 제한 최대 80초 (MP3/WAV) 해당 없음
PDF 제한 최대 6페이지 해당 없음
💡 공식 발표문을 보면 120초 초과 영상은 세그먼트로 나눠 각각 임베딩하고 의미 타임라인을 구성하는 방식을 권장합니다. 자동 처리가 아니라 개발자가 직접 청킹 로직을 구현해야 합니다.

영상 처리 방식도 체크가 필요합니다. 32초 이하 영상은 1fps로 샘플링하고, 그 이상은 최대 32프레임으로 균등 샘플링합니다. 오디오 트랙은 영상 파일에서 처리되지 않습니다. 영상 속 대사까지 임베딩하려면 오디오를 별도로 넣어야 합니다. (출처: Google AI 개발자 문서, 2026.03)

▲ 목차로 돌아가기

벤치마크 1위인데 꼴찌가 된 테스트

💡 MTEB 리더보드 1위를 보고 “그냥 최고 아닌가?” 하고 넘어가기 쉬운데, 공식 수치와 독립 테스트를 같이 놓고 보니 전혀 다른 그림이 나왔습니다.

MTEB English 점수 68.32는 2위와의 격차가 5.09점입니다. 멀티링궐 벤치마크에서도 69.9로 선두입니다. (출처: MTEB Leaderboard, awesomeagents.ai, 2026.03.09) 그런데 독립 개발자 Chen Zhang이 4개 과제를 직접 테스트한 결과에서 뜻밖의 결과가 나왔습니다. (출처: dev.to, 2026.03.20)

MRL 차원 압축 테스트에서 Gemini Embedding 2의 Spearman 상관계수는 전체 차원에서 0.683, 256차원으로 줄이면 0.668이었습니다. 10개 모델 중 꼴찌입니다. 비교하면 Voyage Multimodal 3.5는 전체 차원 0.880에서 256차원 0.874로 감소폭이 0.7%에 불과합니다. Gemini는 2.2% 떨어집니다.

모델 전체 차원 ρ 256차원 ρ 감소폭
Voyage MM-3.5 0.880 0.874 0.7%
Jina Embeddings v4 0.833 0.828 0.6%
OpenAI text-embedding-3-large 0.767 0.762 0.6%
Gemini Embedding 2 0.683 0.668 2.2%

이건 MRL이 학습 목표에 얼마나 명시적으로 포함되었느냐의 차이입니다. Voyage와 Jina v4는 MRL 목표로 별도 훈련된 모델이고, Gemini는 5개 모달리티를 통합하는 데 최적화가 집중되어 있습니다. 차원 압축 효율이 낮다는 건 벡터 스토리지 비용을 줄이기 위해 차원을 내릴 때 품질 손실이 크다는 의미입니다.

반면 교차 언어 검색 테스트에서는 정반대였습니다. “뱀에 발을 그린다” 같은 한자성어를 “To gild the lily”에 매핑하는 숙어 수준의 한·중·영 교차 검색에서 Gemini가 R@1 0.997로 압도적 1위였습니다. OpenAI text-embedding-3-large는 0.967에 그쳤습니다. 스토리지 효율보다 다국어 정밀도가 중요한 팀이라면 이 수치가 훨씬 의미 있습니다.

▲ 목차로 돌아가기

768 차원으로 줄여도 품질이 안 떨어지는 이유 — 계산해 봤습니다

💡 공식 MTEB 점수표를 보면 3072 차원(68.16)과 768 차원(67.99) 사이 차이가 0.17점입니다. 현실적으로 거의 구분할 수 없는 수준입니다.

계산식으로 직접 따라할 수 있습니다.

벡터 스토리지 비용 계산 (float32 기준)

• 100만 개 벡터 × 3072차원 × 4바이트 = 약 12 GB
• 100만 개 벡터 × 768차원 × 4바이트 = 약 3 GB
• 절감: 75% (MTEB 점수 손실 0.17점)

Pinecone, Weaviate 같은 벡터 DB는 저장 용량 기준으로 비용을 책정합니다. 100만 벡터 기준 12GB를 3GB로 줄이면 월 스토리지 비용도 4분의 1로 줄어듭니다. 품질은 0.17점 희생으로 비용은 3배 이상 줄이는 셈입니다.

단, 3072 차원 벡터는 정규화가 자동으로 적용되지만 768·1536 차원은 직접 정규화해야 합니다. 공식 문서에 numpy로 처리하는 코드가 나와 있습니다. 정규화를 빠뜨리면 코사인 유사도 계산이 틀어집니다. 이 부분은 공식 문서에서 별도 이유 없이 그냥 그렇게 동작하도록 설계되어 있습니다.

▲ 목차로 돌아가기

마이그레이션 전에 반드시 알아야 할 것

⚠️ gemini-embedding-001과 gemini-embedding-2-preview의 벡터 공간은 완전히 비호환입니다. 두 모델이 생성한 벡터를 같은 인덱스에 섞으면 거리 계산 결과가 의미 없는 숫자가 됩니다. (출처: Google AI 개발자 문서, 2026.03)

기존에 gemini-embedding-001을 운영 중이라면 전체 코퍼스를 다시 임베딩해야 합니다. 운영 중인 검색 시스템에서 기존 벡터와 새 벡터를 병행하는 건 불가능합니다. 마이그레이션 비용을 계산할 때 이 재임베딩 작업이 가장 큰 숨겨진 비용입니다.

Medium에서 엔터프라이즈 RAG 컨설팅을 진행한 Ewan Mak(Tenten.co)이 제안한 권장 절차는 세 단계입니다. (출처: Medium, tentenco, 2026.03.21) 첫째, 프로덕션은 기존 모델로 유지하면서 새 모델로 백그라운드 재임베딩을 별도 인덱스에 진행합니다. 둘째, 코사인 유사도 임계값을 A/B 테스트로 재보정합니다. 모델마다 벡터 분포가 달라서 기존 임계값을 그대로 쓰면 리콜이 달라집니다. 셋째, 평가 데이터로 품질 확인 후에만 전환합니다.

배치 API를 활용하면 재임베딩 비용을 절반으로 줄일 수 있습니다. 배치 API 가격은 1M 토큰당 $0.10으로 기본 가격($0.20)의 50%입니다. 500 토큰짜리 문서 100만 개를 전부 재임베딩하면 약 500M 토큰, 배치 기준으로 $50입니다. 이 계산은 직접 따라할 수 있는 수준입니다.

▲ 목차로 돌아가기

실제 파트너사가 보고한 수치들

💡 구글 공식 블로그에 이름이 공개된 파트너 4곳의 실측 수치를 그대로 옮겼습니다. 수치 자체보다 각 케이스에서 어떤 문제가 해결됐는지를 보는 게 더 중요합니다.
🎬 파라운트 스카이댄스
85.3%
텍스트→영상 Recall@1
미전사 비디오 자산 검색 파이프라인 적용
⚖️ Everlaw (법률 테크)
정밀도↑
수백만 건 문서 검색
소송 디스커버리 단계, 이미지·영상 검색 신규 지원
🚀 Sparkonomy (크리에이터)
70%
지연 시간 감소
3개 모델 파이프라인 → 단일 API, 텍스트-이미지 유사도 0.4→0.8
🧠 Mindlid (웰니스)
+20%
Top-1 리콜 향상
텍스트·오디오·영상 대화 기록 통합 검색 적용

공통 패턴이 보입니다. 여러 모달리티를 각각 처리하던 파이프라인을 단일 API로 교체하면서 레이턴시가 줄고, 의미 유사도 점수가 올라가는 흐름입니다. 다만 이 수치는 모두 구글 공식 블로그에 게재된 얼리 액세스 파트너 사례입니다. 독립 검증된 벤치마크가 더 나오기까지는 참고 수준으로 보는 게 맞습니다. (출처: Google Blog, 2026.03.10)

▲ 목차로 돌아가기

어떤 팀에 맞고 어떤 팀에 안 맞는가

💡 OpenAI와 Gemini를 나란히 놓고 비교하면 가격 차이(10배)만 보이는데, 파이프라인 복잡도까지 포함해서 계산하면 전혀 다른 그림이 나옵니다.

Gemini Embedding 2가 맞는 팀은 텍스트 쿼리로 영상·이미지 자산을 검색해야 하거나, 한국어·영어·중국어 등 다국어 코퍼스를 단일 인덱스에서 검색해야 하는 경우입니다. 32K 토큰 길이의 긴 문서에서 특정 정보를 찾는 Needle-in-a-Haystack 시나리오에서 완벽한 점수(1.000)가 나왔습니다. 회의록·계약서 전문 RAG 시스템을 만든다면 좋은 선택지입니다.

Gemini Embedding 2가 맞지 않는 팀은 텍스트 전용이고 스토리지 비용에 민감한 경우입니다. OpenAI text-embedding-3-small은 토큰당 $0.02, Gemini는 $0.20으로 10배 차이입니다. 멀티모달이 필요 없고 MRL 차원 압축으로 스토리지를 최소화해야 한다면 Voyage Multimodal 3.5나 Jina Embeddings v4가 나은 선택입니다. 또한 현재는 Preview 상태라 SLA 보장이 없고, 프로덕션 워크로드에 쓰려면 Vertex AI를 통해야 합니다. 공개된 SLA 기준이 아직 없습니다.

솔직히 말하면, 지금 당장 텍스트 전용 RAG를 운영한다면 Gemini Embedding 2로 갈아타야 할 긴박한 이유가 없습니다. 하지만 6개월 안에 이미지나 영상 검색을 추가할 계획이 있다면, 처음부터 이 모델로 시작해서 나중에 같은 인덱스에 모달리티를 추가하는 전략이 마이그레이션 비용을 아끼는 방법입니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. Gemini Embedding 2는 무료로 쓸 수 있나요?
Q2. OpenAI text-embedding-3-large 대신 써야 할 이유가 있나요?
텍스트만 쓴다면 가격 면에서 OpenAI가 10배 저렴합니다($0.02 vs $0.20/M 토큰). MTEB 점수는 Gemini가 68.32로 OpenAI(약 64대)보다 높지만, 텍스트 전용 파이프라인에서 체감 차이는 미미할 수 있습니다. 이미지·영상·오디오 검색이 필요하거나 한국어·중국어 다국어 시나리오라면 Gemini가 명확히 유리합니다.
Q3. 기존 gemini-embedding-001 인덱스를 그대로 업그레이드할 수 있나요?
안 됩니다. 두 모델의 벡터 공간이 비호환이라 기존 인덱스에 새 모델 벡터를 추가하면 검색 결과가 틀어집니다. 전체 코퍼스를 새 모델로 재임베딩해서 별도 인덱스를 만들어야 합니다. 배치 API를 쓰면 비용을 50% 줄일 수 있습니다. (출처: Google AI 개발자 문서, 2026.03)
Q4. 120초보다 긴 영상은 어떻게 처리하나요?
공식 문서는 120초 초과 영상을 겹치는 세그먼트로 분할해서 각각 임베딩하는 방식을 권장합니다. 이렇게 하면 검색 가능한 의미 타임라인을 구성할 수 있습니다. 자동 분할 기능은 없고 개발자가 직접 청킹 로직을 구현해야 합니다. 영상 안의 오디오 트랙은 별도로 처리해야 하며 영상 파일에서는 추출되지 않습니다.
Q5. EmbeddingGemma와 Gemini Embedding 2는 다른 건가요?
완전히 다른 제품입니다. EmbeddingGemma는 308M 파라미터의 오픈소스 텍스트 임베딩 모델로 Gemma 3 아키텍처 기반이고 온디바이스 실행용입니다. 양자화 시 200MB 이하로 EdgeTPU에서 22ms 이내 추론이 가능합니다. 텍스트 전용이고 컨텍스트 한도도 2,048 토큰으로 작습니다. 오프라인·프라이버시 민감 환경에서는 EmbeddingGemma, 클라우드 기반 멀티모달 검색에는 Gemini Embedding 2가 맞습니다.

▲ 목차로 돌아가기

마치며

다만 MRL 차원 압축 효율이 낮다는 점, 마이그레이션 시 전체 재임베딩이 필수라는 점, 아직 Preview 상태라는 점은 프로덕션 도입 전에 반드시 계획에 넣어야 합니다. MTEB 숫자 하나로 “최고”라고 판단하면 나중에 스토리지 비용이나 마이그레이션 공수가 예상보다 커질 수 있습니다.

지금 당장 멀티모달이 필요 없다면 서두를 필요는 없습니다. 하지만 앞으로 이미지나 영상 검색을 추가할 가능성이 있다면, 지금 시작하는 RAG 파이프라인을 이 모델로 구축해두면 나중에 아키텍처를 뜯지 않아도 됩니다.

본 포스팅 참고 자료

Google Blog — Gemini Embedding 2 공식 발표 (2026.03.10)
Google AI 개발자 문서 — Embeddings API 공식 가이드
MTEB 리더보드 2026년 3월 기준 (awesomeagents.ai)
독립 벤치마크 — 10개 임베딩 모델 비교 (dev.to, 2026.03.20)

본 포스팅은 2026년 3월 23일 기준으로 작성되었습니다. 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 공식 문서에서 최신 정보를 반드시 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기