gemini-embedding-2-preview 기준
Gemini Embedding 2, 비쌀수록 정확하다는 말이 맞을까요?
구글이 2026년 3월 10일 공개한 Gemini Embedding 2는 텍스트·이미지·동영상·오디오·PDF를 단일 임베딩 공간에 통합한 첫 번째 네이티브 멀티모달 임베딩 모델입니다. “멀티모달이 됐다”는 것 자체보다, 실제로 써봤을 때 드러나는 가격·정확도 역설과 마이그레이션 함정이 훨씬 중요합니다.
임베딩 모델이 왜 지금 주목받는가
AI 서비스의 실제 품질은 생성 모델보다 임베딩 모델이 결정하는 경우가 많습니다. RAG(검색 증강 생성) 시스템에서 잘못된 문서를 불러오면, 아무리 좋은 LLM을 붙여도 답변이 틀립니다. 임베딩 모델은 데이터를 숫자 벡터로 변환해서 의미적 유사도를 계산하는 역할을 하는데, 이 단계에서 실수가 나면 그 뒤가 모두 무너집니다.
기존 임베딩 모델의 공통적인 한계는 “텍스트 중심”이라는 점이었습니다. 영상을 텍스트로 변환하고, 오디오를 텍스트로 전사한 뒤, 그 텍스트를 임베딩하는 3단계 파이프라인이 일반적이었습니다. 단계가 늘어날수록 원본 데이터의 뉘앙스가 소실됩니다. 말투·억양·영상의 시각적 맥락 같은 것들이 텍스트로 변환되는 과정에서 날아가 버립니다.
Gemini Embedding 2는 텍스트·이미지·영상·오디오·PDF를 별도 파이프라인 없이 단일 API 호출 하나로 같은 벡터 공간에 넣습니다. 구조적 변화입니다. 단순한 기능 추가가 아니라, 다중 파이프라인 전체를 하나로 압축하는 방식입니다.
Gemini Embedding 2 스펙 — 기존과 실제로 얼마나 달라졌나
공식 API 문서에 명시된 스펙을 기준으로 정리했습니다. (출처: Google Vertex AI 공식 문서, 2026.03.10)
| 항목 | 이전 모델(text-embedding-005) | Gemini Embedding 2 |
|---|---|---|
| 지원 모달리티 | 텍스트만 | 텍스트·이미지·영상·오디오·PDF |
| 텍스트 입력 한도 | 2,048 토큰 | 8,192 토큰 (4배 증가) |
| 기본 출력 차원 | 768 dim (고정) | 3,072 dim (128~3,072 가변) |
| 영상 지원 | 미지원 | 오디오 포함 80초 / 영상만 120초 |
| 이미지 지원 | 미지원 | 요청당 최대 6장 (PNG/JPEG) |
| PDF 지원 | 미지원 | 최대 6페이지 직접 임베딩 |
| 지원 언어 | 약 50개 | 100개 이상 |
| 가격 (텍스트·이미지·영상) | $0.10 / 1M 토큰 | $0.25 / 1M 토큰 (2.5배) |
| 오디오 가격 | 해당 없음 | $0.50 / 1M 토큰 |
* 출처: Google Vertex AI 공식 문서 / Google AI for Developers API 문서 (2026.03.10 기준)
텍스트 입력 한도가 2,048에서 8,192 토큰으로 늘어난 것은 수치 이상의 의미가 있습니다. 기존에는 긴 계약서나 보고서를 임베딩하려면 강제로 잘라야 했는데, 이제 약 6,000~7,000자 분량을 통째로 임베딩할 수 있게 됐습니다. 덩어리를 자르는 과정에서 생기는 문맥 단절이 줄어듭니다.
돈 더 냈는데 정확도가 낮은 이유가 있습니다
💡 공식 발표 벤치마크와 독립 벤치마크를 나란히 놓고 보니 이런 차이가 보였습니다
구글이 자체 발표한 벤치마크는 멀티모달 항목에서 경쟁 우위를 보여주지만, AIMultiple이 진행한 11개 임베딩 모델 독립 벤치마크에서는 다른 그림이 나옵니다. 텍스트 검색 정확도 기준 1위는 mistral-embed(77.8%)였고, 구글의 기존 gemini-embedding-001은 71.5%였습니다. (출처: AInvest 분석, 2026.03.10) 비싼 모델이 텍스트 검색에서는 1위가 아닙니다.
이 수치가 중요한 이유는 간단합니다. 현실의 RAG 시스템에서 검색 쿼리의 대부분은 아직 텍스트입니다. 멀티모달 입력을 지원한다고 해도, 텍스트 기반 검색 정확도가 낮으면 전체 시스템 품질이 떨어집니다. 구글이 Gemini Embedding 2로 제시하는 강점은 멀티모달 검색이지만, 텍스트 단독 검색이 메인인 서비스라면 Mistral 임베딩 모델 대비 1.4배 비용을 내고도 정확도가 낮을 수 있습니다.
단, 이 비교는 gemini-embedding-001 기준입니다. Gemini Embedding 2는 별도의 텍스트 전용 벤치마크가 공개 시점에 충분히 축적되지 않았으므로, 텍스트 정확도가 그대로 이어진다고 단정하기는 어렵습니다. Anthropic과 OpenAI가 이 부분에 대한 공식 비교 데이터를 내놓지 않은 상황입니다.
⚠️ 주의: “비쌀수록 좋다”는 가정은 임베딩 모델에서 성립하지 않을 수 있습니다
텍스트 중심 RAG 서비스라면, Gemini Embedding 2보다 Mistral embed($0.10/1M 토큰)가 낮은 비용에 높은 정확도를 낼 수 있습니다. 멀티모달 데이터를 실제로 다루는 경우에만 Gemini Embedding 2가 명확한 이점을 갖습니다.
벡터 차원 줄여도 품질이 유지되는 구조적 이유
💡 3,072 차원 전부 저장하지 않아도 된다는 게 비용 구조 자체를 바꿉니다
Gemini Embedding 2는 MRL(Matryoshka Representation Learning)을 적용했습니다. 러시아 마트료시카 인형처럼 정보를 계층적으로 중첩 저장하는 방식으로, 앞쪽 차원에 가장 중요한 의미 정보를 집중시킵니다. (출처: Google DeepMind 공식 블로그, 2026.03.10)
실제로 768 차원만 사용해도 3,072 차원 대비 성능 손실이 선형적이지 않습니다. 벡터 DB 저장 비용은 차원 수에 비례하므로, 768 dim을 쓰면 저장 비용이 3,072 대비 약 4분의 1로 줄어듭니다. 검색 정확도가 크게 안 떨어진다면 실제 운영 비용 절감 효과가 큽니다.
여기서 기존 블로그들이 잘 언급하지 않는 실용적인 전략이 있습니다. 2단계 검색 패턴입니다. 1단계에서 256 차원 벡터로 전체 DB에서 상위 후보 수십 개를 빠르게 뽑아낸 뒤, 2단계에서 해당 후보들만 3,072 차원으로 재정렬합니다. 이 방식은 소형 모델의 속도와 대형 모델의 정확도를 동시에 취합니다. MRL 덕분에 두 단계가 같은 모델의 같은 벡터 공간 안에서 일어나므로, 기존처럼 서로 다른 두 모델을 연결하는 복잡함이 없습니다. (출처: Google Cloud Medium 블로그, Karl Weinmeister, 2026.03.11)
📐 차원별 저장 비용 비교 (1억 벡터 기준, 추정)
| 차원 | 벡터당 크기 | 1억 벡터 총 용량(약) | 추천 용도 |
|---|---|---|---|
| 768 | 3KB | 약 300GB | 일반 검색, 추천 |
| 1,536 | 6KB | 약 600GB | 중간 정밀도 RAG |
| 3,072 | 12KB | 약 1.2TB | 법률·의료 고정밀 검색 |
* float32 기준 추정치. 실제 벡터 DB는 압축 방식에 따라 달라짐. 구글 공식 권장 차원: 768·1536·3072
한 가지 함정이 있습니다. 768 차원 이하로 줄이면 벡터가 기본적으로 정규화되지 않습니다. 코사인 유사도 계산 전에 직접 L2 정규화를 적용해야 합니다. 이걸 빠뜨리면 거리 계산이 왜곡되어 검색 품질이 급격히 나빠집니다. 공식 문서에도 명시돼 있지만 간과하기 쉬운 부분입니다.
마이그레이션하면 바로 쓸 수 있다는 말이 반만 맞는 이유
💡 API 호환성과 운영 호환성은 전혀 다른 이야기입니다
기존 코드를 거의 바꾸지 않아도 된다는 “API 연속성”은 사실입니다. 하지만 기존 임베딩 DB를 그대로 쓸 수 없습니다. 모델이 바뀌면 벡터 좌표계 자체가 달라지기 때문에, gemini-embedding-001이나 text-embedding-005로 만든 벡터와 Gemini Embedding 2 벡터를 같은 인덱스에 섞어서 쓰면 거리 계산 자체가 무의미해집니다. 전체 재임베딩이 필수입니다.
더 까다로운 문제가 있습니다. RAG 파이프라인에서 검색 필터링 기준으로 사용하는 코사인 유사도 임계값이 모델마다 다른 분포를 가집니다. 예를 들어 기존 모델에서 0.6 이상을 “관련 있음”으로 판단했다면, 새 모델에서는 같은 의미적 유사도가 0.7이나 0.75로 나올 수 있습니다. 임계값을 그대로 유지하면 검색 결과가 갑자기 빈약해지거나 과도하게 넓어집니다. A/B 테스트로 임계값을 재보정해야 합니다. (출처: Google Cloud Medium 블로그, Karl Weinmeister, 2026.03.11)
현실적인 마이그레이션 순서는 이렇습니다. 먼저 운영 시스템을 그대로 두고, 기존 코퍼스를 Batch API로 새 모델에 재임베딩해 별도 인덱스를 만듭니다. 그다음 트래픽을 5% → 20% → 50% → 100% 비율로 단계적으로 전환하면서 검색 품질 지표를 비교합니다. Batch API를 쓰면 일반 API 대비 절반 비용으로 재임베딩할 수 있다는 점도 중요합니다. 대용량 재임베딩이라면 Batch API 활용이 사실상 필수입니다.
⚠️ Vertex AI에서의 제약 — Public Preview 단계 한계
현재 Vertex AI에서 Gemini Embedding 2는 Provisioned Throughput·Flex PayGo·Priority PayGo·배치 예측을 지원하지 않습니다. 대용량 엔터프라이즈 환경에서는 표준 PayGo만 선택 가능합니다. GA(정식 출시) 이후 옵션이 확대될 예정이지만, 공식 일정은 아직 공개되지 않았습니다. (출처: Google Vertex AI 공식 문서, 2026.03.10)
오디오 임베딩에 왜 2배 요금이 붙는가
텍스트·이미지·영상은 $0.25/1M 토큰인데, 오디오만 $0.50/1M 토큰으로 2배입니다. 단순한 가격 책정이 아닙니다. 오디오는 중간 텍스트 변환 없이 음성 파형 자체를 임베딩하는 과정이 연산 비용이 더 높기 때문입니다. (출처: VentureBeat, 2026.03.11)
기존 방식은 오디오 → 자동 전사(STT) → 텍스트 임베딩 순으로 이어졌습니다. Whisper 같은 STT 모델을 따로 쓰면 그 비용도 별도로 발생했습니다. Gemini Embedding 2는 STT 단계를 없애고 오디오를 바로 처리하지만, 그 연산 비용을 요금으로 흡수합니다. 음성 억양·감정·비언어적 신호가 텍스트 변환 없이 벡터에 반영되는 것이 이 요금의 값어치를 결정합니다.
콜센터 음성 분석이나 팟캐스트 검색 같은 용도라면 기존 STT+임베딩 파이프라인 총비용과 Gemini Embedding 2 오디오 요금을 직접 비교해야 합니다. 단순히 “통합 API가 저렴하다”고 단정하기 어렵습니다. 규모와 STT 정확도 요구 수준에 따라 달라집니다.
📊 Sparkonomy 실측 수치의 의미
크리에이터 경제 플랫폼 Sparkonomy는 Gemini Embedding 2 도입 후 지연 시간을 최대 70% 줄이고 텍스트-영상 의미 유사도 점수를 0.4에서 0.8로 끌어올렸습니다. (출처: Google 공식 블로그 파트너 사례, 2026.03.10) 이 수치는 영상 자체를 LLM에 설명시키는 중간 단계를 제거한 결과입니다. 파이프라인 단계가 줄면 오류 누적도 줄어듭니다.
Q&A — 자주 나오는 질문 5가지
Q1. 무료로 써볼 수 있나요?
Gemini API 무료 티어에서 gemini-embedding-2-preview를 사용할 수 있습니다. 분당 60회 요청 제한이 있고, 무료 티어 사용 데이터는 구글의 모델 개선에 활용됩니다. 프로덕션 환경에서는 유료 전환이 필요합니다. Vertex AI에서는 무료 티어 없이 Standard PayGo만 적용됩니다.
Q2. 기존 임베딩 벡터와 혼합해서 검색하면 안 되나요?
안 됩니다. 각 임베딩 모델은 서로 다른 좌표계를 사용합니다. gemini-embedding-001, text-embedding-005, Gemini Embedding 2의 벡터를 같은 인덱스에 섞으면 코사인 유사도 계산 자체가 의미 없어집니다. 전체 재임베딩이 필수이며, Batch API로 처리하면 일반 API 대비 절반 비용으로 작업할 수 있습니다.
Q3. 100페이지짜리 PDF를 임베딩할 수 없나요?
한 번에 6페이지까지만 임베딩할 수 있습니다. 100페이지 PDF라면 6페이지 단위로 잘라 17번 호출해야 합니다. 각 청크는 독립적인 벡터가 되고, 벡터 DB에 저장된 뒤 검색 시 유사도로 집계됩니다. 청크 경계에서 문맥이 잘리는 문제는 일부 페이지를 겹쳐 자르는 슬라이딩 윈도우 방식으로 완화할 수 있습니다.
Q4. LangChain이나 LlamaIndex와 바로 연동되나요?
네. 출시 시점부터 LangChain, LlamaIndex, Haystack, Weaviate, Qdrant, ChromaDB와 공식 통합이 지원됩니다. 모델명을 gemini-embedding-2-preview로 바꾸는 수준의 코드 변경으로 연동됩니다. 다만 벡터 인덱스 재구성과 유사도 임계값 재보정은 별도로 해야 합니다.
Q5. Public Preview와 GA(정식 출시)의 차이가 실제로 있나요?
있습니다. Public Preview 단계에서는 SLA(서비스 수준 협약)가 보장되지 않으며, API 스펙이 예고 없이 변경될 수 있습니다. Vertex AI에서 Provisioned Throughput 같은 엔터프라이즈 요금제도 Preview 중에는 지원되지 않습니다. 프로덕션 트래픽을 전부 의존하기 전에 GA 출시 시점을 확인하는 것이 안전합니다. GA 일정은 이유 없이 공개되지 않고 있습니다.
마치며
Gemini Embedding 2의 가치는 조건부입니다. 텍스트 데이터만 다루고 있다면, 지금 당장 갈아탈 이유는 크지 않습니다. 텍스트 전용 정확도 벤치마크에서 경쟁 모델이 앞서 있고, 가격은 2.5배 높으며, 아직 Public Preview 단계입니다.
반면 영상 라이브러리·음성 녹음·이미지 컬렉션을 텍스트와 함께 검색해야 하는 서비스라면, 기존 STT+임베딩 다단계 파이프라인을 단일 API로 압축할 수 있는 가장 현실적인 선택지입니다. Sparkonomy의 지연 70% 단축이나 Everlaw의 리콜 20% 개선은 멀티모달 파이프라인을 실제로 운용하고 있는 조직에게만 의미 있는 수치입니다.
마이그레이션을 고려한다면 전체 재임베딩 비용과 유사도 임계값 재보정 작업이 선행되어야 한다는 점을 먼저 계획에 넣어야 합니다. API 연속성이 좋다고 해서 운영 전환이 곧바로 쉽다는 뜻은 아닙니다. 기술적 도약과 실용적 전환 비용은 별개입니다.
본 포스팅 참고 자료
- Google DeepMind 공식 블로그 — Gemini Embedding 2 발표 원문 (blog.google)
- Google AI for Developers — gemini-embedding-2-preview 공식 API 문서 (ai.google.dev)
- Google Vertex AI 공식 문서 — Gemini Embedding 2 스펙·제약 (docs.cloud.google.com)
- Google Cloud Medium — What you need to know about Gemini Embedding 2 (Karl Weinmeister, 2026.03.11) (medium.com)
- VentureBeat — Gemini Embedding 2 pricing & enterprise analysis (2026.03.11) (venturebeat.com)
- AInvest — Gemini Embedding 2 accuracy benchmark analysis (2026.03.10) (ainvest.com)
본 포스팅은 2026년 3월 31일 기준 공개된 정보를 바탕으로 작성됐습니다. Gemini Embedding 2는 현재 Public Preview 단계이며, 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 최신 정보는 Google 공식 문서를 직접 확인하시기 바랍니다.

댓글 남기기