gemini-embedding-2-preview 기준
Public Preview
Gemini Embedding 2, 전사 없이 음성도 된다고요?
구글 딥마인드가 2026년 3월 10일 공개한 Gemini Embedding 2는 텍스트·이미지·영상·오디오·PDF를 단일 API 호출 하나로 벡터 공간에 넣는 최초의 멀티모달 임베딩 모델입니다. 근데 솔직히 말하면, “오디오 전사 불필요”라는 말이 그냥 마케팅인지, 아니면 실제로 구조가 다른 건지 그 차이를 짚어본 글이 없었습니다. 직접 공식 문서를 들여다봤습니다.
임베딩 모델이 뭔지, 한 문장으로
Gemini Embedding 2를 이야기하기 전에, 임베딩 모델이 뭔지 먼저 짚어두는 게 좋습니다. 임베딩 모델은 텍스트·이미지·오디오 같은 비정형 데이터를 숫자 벡터로 변환하는 모델입니다. 핵심은 “비슷한 내용은 벡터 공간에서 가까이 있다”는 것이고, 이 원리가 RAG(검색 증강 생성), 시맨틱 검색, 추천 시스템의 기반이 됩니다.
기존 임베딩 모델은 모달리티 하나에 집중했습니다. OpenAI의 text-embedding-3-large는 텍스트 전용이고, CLIP은 이미지+텍스트 쌍에 특화돼 있습니다. 이미지·오디오·영상을 같이 검색하려면 각각 다른 모델을 돌리고, 결과를 나중에 합쳐야 했습니다. 운영 파이프라인 복잡도가 올라가는 게 당연한 구조였습니다.
오디오 전사 없이 처리된다는 게 실제로 무슨 뜻인가
💡 공식 발표문과 실제 오디오 처리 흐름을 나란히 놓고 보니 이런 차이가 있었습니다. 기존 방식은 음성 파일이 들어오면 먼저 텍스트로 전사(ASR)한 뒤 그 텍스트를 임베딩합니다. 여기서 발생하는 전사 오류, 억양·감정 정보 손실이 검색 품질을 떨어뜨리는 주범이었습니다.
솔직히 처음엔 “전사 없이 오디오 임베딩”이라는 말이 마케팅 문구처럼 들렸습니다. 막상 공식 API 문서를 보면 이건 실제 아키텍처 차이입니다. 기존 파이프라인에서는 오디오 파일이 들어오면 별도의 ASR(Automatic Speech Recognition) 모델이 먼저 텍스트를 뽑아내고, 그 텍스트를 임베딩 모델에 다시 넣었습니다. 단계가 두 개입니다.
실제로 이 차이가 숫자로 나타납니다. 크리에이터 플랫폼 Sparkonomy는 기존 파이프라인을 Gemini Embedding 2로 전환한 뒤 레이턴시가 최대 70% 감소하고, 텍스트-영상 쌍의 시맨틱 유사도 점수가 0.4에서 0.8로 두 배 가까이 올랐다고 밝혔습니다(출처: Google 공식 블로그, 2026.03.10). 중간 단계 하나가 사라졌을 뿐인데 레이턴시가 반 이상 줄어든 겁니다. 파이프라인 단계 수가 성능에 직결된다는 걸 보여줍니다.
지원 스펙 전체를 한눈에 — 공식 문서 기준
지원 모달리티와 제한 조건을 공식 Vertex AI 문서(2026.03.10 기준)에서 직접 확인한 수치입니다. 제한 조건은 “1회 요청당” 기준임을 주의해야 합니다. 전체 DB에 이 분량만 넣을 수 있다는 뜻이 아닙니다.
| 모달리티 | 최대 입력 한도 (요청당) | 지원 포맷 |
|---|---|---|
| 텍스트 | 8,192 토큰 | – |
| 이미지 | 최대 6장 | PNG, JPEG (WebP 미지원) |
| 영상 (오디오 트랙 없음) | 120초 | MP4, MOV |
| 영상 (오디오 트랙 포함) | 80초 | MP4, MOV |
| 오디오 | 80초 | MP3, WAV |
| 문서 (PDF) | 최대 6페이지 / 1파일 | application/pdf |
출처: Google Vertex AI 공식 문서, 2026.03.10 (https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/embedding-2)
출력 차원은 기본 3,072이며, Matryoshka Representation Learning(MRL) 방식으로 768·1536·3072 중 선택해 줄일 수 있습니다. 768차원도 3072차원과 MTEB 점수 차이가 크지 않은데(67.99 vs 68.16, gemini-embedding-001 기준), 스토리지 비용을 아끼고 싶을 때 유용합니다.
업그레이드하면 기존 DB 전부 날립니다 — 호환성 문제
⚠️ 가장 많이 간과하는 함정: gemini-embedding-001 → gemini-embedding-2-preview로 바꾸면 기존 벡터 DB 전체를 재구축해야 합니다.
“성능 좋아졌으니 업그레이드하면 끝”이라고 생각하기 쉬운데, 그게 아닙니다. 공식 API 문서에 명확하게 나옵니다. “The embedding spaces between gemini-embedding-001 and gemini-embedding-2-preview are incompatible.”(출처: Gemini API 공식 문서, https://ai.google.dev/gemini-api/docs/embeddings)
두 모델이 만든 벡터는 서로 다른 고차원 공간에 있어서, 이전 모델로 만든 벡터와 새 모델로 만든 벡터를 직접 비교할 수 없습니다. gemini-embedding-001로 인덱싱한 문서 10만 개가 있다면, gemini-embedding-2-preview로 전환할 때 그 10만 개를 전부 다시 임베딩해야 한다는 뜻입니다. 전환 비용이 “한 번의 연산 부담”으로 끝나지 않고, 서비스 규모에 따라 상당한 시간과 API 비용이 따라옵니다.
이 부분은 기존 RAG 시스템을 운영 중인 상황에서 업그레이드를 계획할 때 반드시 미리 확인해야 합니다. 데이터 규모에 따라 전환 비용 추정치를 계산해두는 게 좋습니다. 예를 들어 100만 토큰 규모의 텍스트 코퍼스를 재임베딩하면 $0.25의 비용이 발생합니다($0.25/1M 토큰 기준).
오디오 요금이 2배인 진짜 이유
💡 가격표만 보면 그냥 비싸 보입니다. 하지만 왜 2배인지를 기술 구조와 같이 놓고 보면 다르게 읽힙니다.
이 차이는 “오디오를 전사 없이 처리한다”는 특징과 직접 연결됩니다. 기존 파이프라인에서는 ASR 모델이 음성을 텍스트로 바꾼 뒤 임베딩 모델에 넘겼습니다. Gemini Embedding 2는 ASR 단계를 없애고 음파 데이터를 모델 안에서 직접 처리합니다. 이 네이티브 오디오 처리가 연산 집약도가 더 높아서, 요금이 두 배로 책정된 겁니다. 파이프라인이 단순해진 대신 모델 내부 연산 부담이 커진 구조입니다.
80초짜리 음성 파일 하나가 몇 토큰으로 환산되는지는 구글이 공식 답변을 내놓지 않은 부분입니다. 대략적인 비용 예측을 위해서는 Vertex AI 요금 계산기나 Batch API(기본 요금의 50%)를 활용하는 게 현실적입니다. Batch API는 레이턴시가 덜 중요한 대규모 재인덱싱 작업에 적합합니다.
실제로 쓸 때 막히는 조건들 — WebP, PDF 6페이지 제한 외
공식 스펙만 보면 모르는 실제 제약들이 있습니다. Google AI 개발자 포럼(discuss.ai.google.dev, 2026.03.20 기준)에서 확인된 이슈 중 주목할 만한 건 WebP 이미지 미지원입니다. 모델 코드 상으로는 PNG와 JPEG만 지원하며, WebP를 요청하면 오류가 납니다. 웹에서 PNG/JPEG보다 WebP가 더 많이 쓰이는 시대에 이 제한은 실제 서비스 연동 시 변환 단계를 추가해야 함을 뜻합니다.
PDF는 최대 6페이지입니다. 100페이지짜리 계약서를 한 번에 넣으면 안 됩니다. 6페이지 단위로 청킹(chunking)해서 각각 임베딩하고 DB에 쌓는 방식으로 처리해야 합니다. 대신, DB에는 개수 제한 없이 수천만 개의 6페이지 청크를 저장할 수 있습니다.
영상의 경우 오디오 트랙이 포함된 MP4는 80초, 영상만 있으면 120초까지 처리됩니다. 즉 영상 길이 제한이 오디오 트랙 유무에 따라 달라집니다. 2분짜리 인터뷰 영상을 오디오 포함해서 임베딩하려면 80초 단위로 잘라야 합니다. Vertex AI 환경에서는 Standard PayGo만 지원하며, Flex PayGo나 Provisioned Throughput, Batch prediction은 현재 지원하지 않습니다(출처: Vertex AI 공식 모델 카드, 2026.03.10).
다른 임베딩 모델과 비교하면 어디서 앞서고 어디서 뒤집히나
텍스트 전용 작업에서는 여전히 경쟁 구도가 있습니다. OpenAI text-embedding-3-large는 MTEB 64.6%, Cohere Embed v4는 MTEB 65.2%입니다. gemini-embedding-001은 MTEB 68.16%으로 이미 이 둘보다 높고, gemini-embedding-2-preview는 여기에 멀티모달 처리 능력까지 더해집니다(출처: AIlog RAG MTEB 리더보드, 2026.01.16; Gemini API 공식 문서).
| 모델 | 모달리티 | 텍스트 MTEB 점수 | 요금 (1M 토큰) |
|---|---|---|---|
| gemini-embedding-2-preview | 5가지 | 공식 미공개 (gemini-embedding-001 대비 향상) | $0.25 (텍스트·이미지·영상) / $0.50 (오디오) |
| gemini-embedding-001 | 텍스트 전용 | 68.16 | $0.15 |
| OpenAI text-embedding-3-large | 텍스트 전용 | 64.6 | 약 $0.13 |
| Cohere Embed v4 | 텍스트 + 이미지 | 65.2 | 별도 문의 |
출처: Gemini API 공식 문서, OpenAI API 공식 문서, AIlog RAG MTEB 리더보드 (2026.01.16)
순수 텍스트 처리 비용만 보면 gemini-embedding-001($0.15)이나 OpenAI($0.13)보다 gemini-embedding-2-preview($0.25)가 더 비쌉니다. 텍스트 전용 RAG라면 gemini-embedding-001이 더 합리적인 선택일 수 있습니다. 멀티모달 데이터가 섞여 있거나, 영상·오디오 검색이 필요한 경우에 gemini-embedding-2-preview가 파이프라인 단순화 효과를 냅니다.
자주 나오는 질문 5가지
Q1. 지금 무료로 바로 써볼 수 있나요?
네, Gemini API 무료 티어를 통해 바로 체험할 수 있습니다. 분당 60회 요청 제한이 있고, 무료 티어 사용 데이터는 구글 제품 개선에 활용될 수 있습니다. 프로덕션 수준 트래픽이라면 유료 전환이 필요합니다. 공식 시작 가이드는 https://ai.google.dev/gemini-api/docs/embeddings 에 있습니다.
Q2. 기존 RAG 시스템에 그냥 모델만 교체하면 되나요?
안 됩니다. gemini-embedding-001과 gemini-embedding-2-preview는 벡터 공간이 호환되지 않습니다. 기존 모델로 만든 벡터와 새 모델로 만든 벡터를 직접 비교할 수 없어서, 기존 DB에 인덱싱된 데이터를 전부 새 모델로 재임베딩해야 합니다. 전환 전 데이터 규모와 비용을 미리 산정해두는 게 좋습니다.
Q3. 영상과 오디오를 같이 하나의 임베딩으로 만들 수 있나요?
네. 하나의 콘텐츠 항목에 여러 모달리티를 함께 넣으면 합산된 단일 임베딩이 나옵니다. 예를 들어 이미지 + 텍스트 설명을 같은 요청의 parts 필드에 묶으면, 두 모달리티의 의미를 통합한 벡터 하나가 생성됩니다. 별도로 보내면 각각의 임베딩이 나옵니다. 둘 중 어느 방식이 더 나은지는 데이터 특성에 따라 다릅니다.
Q4. LangChain이나 LlamaIndex에서도 쓸 수 있나요?
네. 공식 발표 기준 LangChain, LlamaIndex, Haystack, Weaviate, Qdrant, ChromaDB 모두 통합 지원을 공식 확인했습니다(출처: Google 공식 블로그, 2026.03.10). 단, 각 프레임워크의 최신 버전에서 모델명 gemini-embedding-2-preview를 명시해야 합니다.
Q5. 768차원으로 줄이면 품질이 많이 떨어지나요?
공식 문서 벤치마크 기준으로 gemini-embedding-001에서 3072차원 MTEB는 68.16, 768차원은 67.99입니다. 차이가 0.17p로 크지 않습니다. Matryoshka Representation Learning(MRL) 기법으로 중요한 정보가 앞쪽 차원에 집중 배치되어 있어, 잘라내도 손실이 적은 구조입니다. 스토리지 비용이 걱정되면 768이나 1536으로 줄이는 게 현실적인 선택입니다.
마치며 — 총평
다만 아무 조건 없이 갈아탈 수 있는 건 아닙니다. 기존 gemini-embedding-001 기반 DB를 쓰고 있다면 전체 재임베딩이 필요하고, 오디오는 요금이 2배, WebP는 아직 안 되고, 영상에 오디오가 섞이면 120초 제한이 80초로 줄어듭니다. 이 조건들을 미리 체크하지 않으면 멀티모달로 전환했다가 예상보다 높은 비용이 나올 수 있습니다.
2026년 3월 현재 Public Preview 단계이고, 아직 Vertex AI에서 Batch prediction은 지원되지 않습니다. 대규모 인덱싱을 계획하고 있다면 Batch API(Gemini API 기준, 50% 할인)를 활용하거나 GA 전환 시점을 기다리는 것도 선택지입니다.
본 포스팅 참고 자료
본 포스팅은 2026년 3월 23일 기준 공개된 정보를 바탕으로 작성되었습니다. Gemini Embedding 2는 현재 Public Preview 단계이며, 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 최신 정보는 Gemini API 공식 문서에서 확인하시기 바랍니다.


댓글 남기기