Gemini Embedding 2, 멀티모달이라도 이건 비쌉니다

Published on

in

Gemini Embedding 2, 멀티모달이라도 이건 비쌉니다
2026.03.10 공개 기준 / gemini-embedding-2-preview

Gemini Embedding 2, 멀티모달이라도
이건 비쌉니다

텍스트·이미지·영상·오디오를 하나의 벡터 공간에 넣는다는 구글의 첫 멀티모달 임베딩 모델.
그런데 공식 가격표를 펴보면 생각과 다른 숫자가 보입니다.

텍스트 $0.20/1M tokens
오디오 $6.50/1M tokens
영상 $12.00/1M tokens
배치 API 현재 미지원

임베딩 모델이 뭔지 먼저 짚고 갑니다

AI 검색이나 RAG(검색 증강 생성) 파이프라인을 조금이라도 다뤄봤다면 ‘임베딩’이라는 단어를 한 번쯤 들어봤을 겁니다. 쉽게 말하면, 텍스트든 이미지든 영상이든 어떤 데이터를 숫자 벡터로 변환하는 기술입니다. 비슷한 의미를 가진 것들은 벡터 공간에서 가까이 위치하게 되고, 그 거리를 계산해 “이 질문과 가장 관련된 문서는 뭔가?” 같은 검색을 하는 겁니다.

기존 임베딩 모델들은 대부분 텍스트만 다뤘습니다. 이미지를 검색하고 싶으면 CLIP 같은 별도 모델을 쓰고, 오디오는 Whisper로 텍스트로 먼저 바꾼 뒤 다시 임베딩하는 방식이었죠. 이렇게 중간 단계를 거칠수록 원래 의미가 일부 손실됩니다. 녹음 파일에서 감정의 뉘앙스를 텍스트로 옮기면, 텍스트에 없는 톤·강세·침묵이 사라지는 것처럼요.

Gemini Embedding 2는 이 중간 단계를 없애겠다는 게 핵심 목표입니다. 텍스트·이미지·영상·오디오·PDF를 하나의 벡터 공간에 직접 투영합니다. 구글 DeepMind가 2026년 3월 10일 공식 발표했고, 현재 Public Preview 상태로 Gemini API와 Vertex AI에서 사용할 수 있습니다. (출처: Google Blog, 2026.03.10)

▲ 목차로 돌아가기

Gemini Embedding 2가 달라진 핵심

이전 모델인 gemini-embedding-001은 텍스트 전용에 최대 2,048 토큰이었습니다. Gemini Embedding 2는 이걸 세 가지 방향으로 바꿨습니다.

📌 공식 발표문과 실제 스펙을 나란히 놓고 보니 이런 차이가 보였습니다

  • 입력 토큰 4배 확장: 2,048 → 8,192 토큰. 긴 문서를 더 큰 청크로 처리할 수 있어 RAG 품질이 올라갑니다.
  • 5가지 모달리티 통합: 텍스트, 이미지(PNG/JPEG 최대 6장), 영상(MP4/MOV 최대 120초), 오디오(MP3/WAV 최대 80초), PDF(최대 6페이지)를 단일 요청에서 처리합니다.
  • MRL 기반 차원 유연화: 기본 3,072 차원이지만 768, 1,536으로 잘라 쓸 수 있습니다. 스토리지 비용과 검색 속도를 조절할 수 있는 레버입니다.

인터리브드(Interleaved) 입력도 됩니다. 이미지 한 장과 텍스트 설명을 같은 요청에 묶어 보내면 모델이 그 관계를 함께 이해해서 하나의 벡터로 만들어냅니다. 단순히 둘을 따로 처리해 합산하는 게 아닙니다. (출처: Google DeepMind Blog, 2026.03.10)

MTEB 멀티링구얼 벤치마크에서 69.9점, MTEB 코드 분야에서 84.0점을 기록했습니다. 영상 리트리벌(Vatex, MSR-VTT, Youcook2) 부문에서는 Amazon Nova 2, Voyage Multimodal 3.5 등 기존 경쟁 모델들 대비 가장 큰 격차를 보였습니다. (출처: tokencost.app, 2026.03.12)

▲ 목차로 돌아가기

입력 제한, 생각보다 촘촘합니다

멀티모달이라는 말에서 ‘무엇이든 넣을 수 있다’는 인상을 받기 쉽습니다. 막상 써보면 이 단계에서 멈춥니다.

입력 유형 요청당 한도 지원 포맷
텍스트 8,192 토큰 일반 텍스트
이미지 6장 PNG, JPEG, WebP, HEIC
영상 120초 MP4, MOV
오디오 80초 MP3, WAV
PDF 6페이지 PDF

(출처: Google AI for Developers 공식 문서, 2026.03)

100페이지짜리 계약서를 한 번에 넣을 수는 없습니다. 6페이지씩 잘라서 각각 요청해야 합니다. 10분짜리 회의 녹화는 128초 단위로 쪼개야 합니다. 이게 현실적으로 귀찮고 복잡한 청킹 전략을 요구한다는 뜻입니다.

다만 이 제한은 요청당 한도이지, 데이터베이스 전체 한도가 아닙니다. 청크로 잘게 쪼갠 벡터를 DB에 쌓아두면 그 전체를 동시에 검색할 수 있습니다. 이 구조를 이해하지 못하면 “6페이지밖에 안 되네”에서 포기하고 맙니다.

▲ 목차로 돌아가기

공식 가격표에서 직접 확인한 숫자

💡 공식 가격표와 경쟁 모델을 같이 놓고 보니 이런 차이가 보였습니다

텍스트만 쓴다면 OpenAI가 최대 10배 저렴합니다. “멀티모달이니까 당연히 비싸겠지”라고 넘기기엔, 텍스트 가격 자체도 전작 대비 33% 올랐습니다.

모델 텍스트 가격(1M tokens) 최대 입력 멀티모달
Gemini Embedding 2 $0.20 8,192 토큰 ✅ 5종
Gemini Embedding 001 $0.15 2,048 토큰 ❌ 텍스트만
OpenAI text-embedding-3-large $0.13 8,191 토큰 ❌ 텍스트만
OpenAI text-embedding-3-small $0.02 8,191 토큰 ❌ 텍스트만

(출처: Google AI for Developers 공식 가격 페이지, OpenAI API 가격 페이지, 2026.03 기준)

텍스트만 쓴다면 OpenAI text-embedding-3-small 대비 10배 비쌉니다. 이 수치가 의미하는 건 간단합니다. 기존에 텍스트 중심 RAG 파이프라인을 운영하고 있는 팀이라면, 멀티모달이라는 이유만으로 무조건 갈아타는 건 비용 면에서 손해입니다.

반면 이미지·영상·오디오를 함께 다뤄야 하는 상황에선 사실상 경쟁자가 없습니다. OpenAI는 텍스트 전용 임베딩 모델만 제공하고, CLIP처럼 이미지만 다루는 별도 모델을 붙이면 파이프라인이 복잡해지고 벡터 공간이 달라집니다.

▲ 목차로 돌아가기

오디오 임베딩, 쓰면 텍스트보다 32배 더 나갑니다

이게 실제로 써본 사람이 가장 놀라는 부분입니다. 공식 가격표를 그대로 인용하면 이렇습니다.

⚠️ 오디오 가격이 텍스트 대비 32.5배 비쌉니다

텍스트: $0.20 / 1M tokens
오디오: $6.50 / 1M tokens ($0.00016/초)

100시간 분량의 고객 상담 녹음(약 360,000초)을 인덱싱한다면:
$$360{,}000\text{초} \times \$0.00016 = \$57.60$$
같은 내용을 텍스트로 바꿔 임베딩하면 Whisper API(약 $0.006/분) + text-embedding-3-small($0.02/1M)로 훨씬 저렴하게 처리 가능합니다. 오디오 뉘앙스를 그대로 보존하고 싶다면 네이티브 오디오 임베딩이 의미 있지만, 비용 차이를 인지하고 써야 합니다.

(출처: Google AI for Developers 공식 가격 페이지, 2026.03)

영상은 더합니다. $12.00/1M tokens($0.00079/프레임)입니다. 텍스트 대비 60배입니다. 영상 한 클립을 통째로 인덱싱하다 보면 순식간에 비용이 쌓입니다. 이 수치가 의미하는 건, 오디오·영상 임베딩은 꼭 필요한 핵심 콘텐츠에 선별적으로 적용하는 전략이 필요하다는 겁니다.

게다가 현재 Gemini Embedding 2 Preview는 배치(Batch) API를 지원하지 않습니다. 공식 가격 페이지 배치 항목이 모두 ‘Not available’로 표시돼 있습니다. 텍스트·이미지·영상·오디오 모두 해당됩니다. (출처: Google Gemini API 공식 가격 페이지, 2026.03) 배치 처리로 50% 할인을 기대했다면, 현재로선 적용이 안 됩니다.

▲ 목차로 돌아가기

MRL로 스토리지는 줄어도, 재인덱싱 비용은 그대로입니다

Matryoshka Representation Learning(MRL)은 러시아 마트료시카 인형처럼 중요한 정보를 벡터 앞쪽 차원에 먼저 채워 넣는 기법입니다. 덕분에 3,072 차원 전체를 쓰지 않고 768 차원만 잘라 써도 정확도가 크게 떨어지지 않습니다.

📐 스토리지 절감 직접 계산해봤습니다

100만 개 벡터 기준 (float32, 4바이트/차원):
$$3{,}072 \times 4 \times 1{,}000{,}000 = 12\text{ GB (3072 차원)}$$
$$768 \times 4 \times 1{,}000{,}000 = 3\text{ GB (768 차원)}$$
768 차원으로 줄이면 스토리지 4분의 1, 검색 속도도 비례해 빨라집니다. 구글 공식 문서에 따르면 768 차원에서 최고 품질 대비 정확도 손실이 최소 수준이라고 명시돼 있습니다. (출처: Google AI for Developers 공식 문서, 2026.03)

여기서 간과하기 쉬운 게 있습니다. 기존에 다른 임베딩 모델로 만든 벡터 DB가 있다면, Gemini Embedding 2로 전환할 때 전체를 다시 임베딩해야 합니다. 벡터 공간이 달라지기 때문에 기존 벡터와 새 벡터를 섞어 쓰는 건 안 됩니다. 이 재인덱싱 비용은 MRL이 줄여줄 수 없습니다.

예를 들어 기존에 OpenAI text-embedding-3-small로 100만 개 청크를 인덱싱해뒀다면, Gemini Embedding 2로 옮길 때 전체를 다시 요청해야 합니다. 규모가 클수록 이 전환 비용이 상당합니다. 이 부분을 계산에 넣지 않고 “더 좋은 모델이니 바꿔야지”로 접근하면, 초기 비용이 예상을 훌쩍 넘깁니다.

▲ 목차로 돌아가기

실제로 쓸 만한 상황과 그렇지 않은 상황

솔직히 말하면, 쓸 만한 상황은 생각보다 좁습니다. 조건이 맞으면 강력하고, 안 맞으면 그냥 비싼 모델입니다.

✅ 이 경우엔 확실히 맞습니다

  • 이미지·영상·PDF가 섞인 데이터를 하나의 검색으로 다뤄야 할 때
  • 오디오의 감정·톤을 텍스트로 변환하지 않고 직접 검색하고 싶을 때
  • 이미 Google Cloud를 쓰고 있어 데이터 전송 비용이 없는 경우
  • 장기적으로 멀티모달 RAG가 핵심 기능인 서비스를 만들 때

❌ 이 경우엔 굳이 안 써도 됩니다

  • 텍스트만 처리하는 문서 검색 파이프라인
  • 비용이 최우선이고 멀티모달이 필요 없는 경우
  • 대용량 배치 처리로 비용을 줄여야 하는 경우 (현재 배치 미지원)
  • GA 전 Preview 리스크를 감수하기 어려운 프로덕션 환경

💡 실사용 사례에서 나온 수치를 공식 발표와 대조해보니 이게 보였습니다

크리에이터 플랫폼 Sparkonomy는 Gemini Embedding 2 도입 후 지연 시간을 최대 70% 줄이고 시맨틱 유사도 점수가 약 2배 올랐다고 밝혔습니다. (출처: VentureBeat, 2026.03.11) 그러나 이 수치는 기존에 별도 모델로 이미지와 텍스트를 따로 처리하던 파이프라인을 통합했을 때의 이득입니다. 텍스트 전용 파이프라인에서는 이 수준의 효율 개선을 기대하기 어렵습니다.

현재 모델 코드가 gemini-embedding-2-preview입니다. Preview 딱지가 붙어 있다는 건, GA(정식 출시) 전에 가격이나 스펙이 바뀔 수 있다는 의미입니다. 구글은 이전 임베딩 모델(text-embedding-004)을 2026년 1월 14일자로 종료했습니다. Preview 단계에서 프로덕션 의존도를 높이다 갑작스러운 변경을 맞으면 대응 비용이 별도로 발생합니다. “확인 필요” 사항으로 남겨둬야 하는 지점입니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. 무료로 써볼 수 있나요?

네, 가능합니다. 무료 티어는 분당 60회 요청 한도 내에서 텍스트·이미지·영상·오디오·PDF 임베딩을 모두 사용할 수 있습니다. 단, 무료 티어 사용 데이터는 구글 제품 개선에 활용됩니다. 프로덕션 환경이거나 데이터 보안이 중요하다면 유료 전환이 필요합니다. (출처: Google Gemini API 공식 가격 페이지, 2026.03)
Q2. 이미지 임베딩 비용은 어떻게 계산하나요?

공식 가격표 기준으로 이미지는 $0.45/1M tokens이며, 이미지 1장당 $0.00012입니다. (출처: Google Gemini API 공식 가격 페이지, 2026.03) 예를 들어 상품 이미지 10만 장을 인덱싱한다면 약 $12가 나옵니다. 텍스트 중심 서비스보다 이미지가 훨씬 많은 이커머스라면 이 수치를 먼저 시뮬레이션해보는 것이 맞습니다.
Q3. 한국어 성능은 어떤가요?

공식 발표에 따르면 100개 이상의 언어를 지원하며 MTEB 멀티링구얼 벤치마크에서 69.9점을 기록했습니다. (출처: Google Blog, 2026.03.10) 다만 한국어 특화 벤치마크 수치는 공식 문서에 별도 명시되지 않았습니다. 한국어 전용 임베딩 성능은 실제 운영 데이터로 직접 검증하는 것을 권장합니다. “확인 필요” 사항입니다.
Q4. LangChain, Weaviate 같은 기존 도구랑 바로 연결되나요?

네, 공식 발표 기준으로 LangChain, LlamaIndex, Haystack, Weaviate, Qdrant, ChromaDB, Vertex AI Vector Search와 연동이 지원됩니다. (출처: Google Blog, 2026.03.10) 단, 기존 텍스트 임베딩 모델로 만든 벡터 인덱스를 그대로 재활용할 수 없고, 전체를 새로 임베딩해야 합니다.
Q5. Preview 상태인데 프로덕션에 바로 써도 될까요?

기술적으로는 사용 가능하지만, 공식 문서에 “Preview 모델은 GA 전에 변경될 수 있으며 더 제한적인 레이트 리밋이 적용된다”고 명시돼 있습니다. (출처: Google AI for Developers 공식 문서, 2026.03) 스펙이나 가격이 GA 단계에서 달라질 수 있으니, 비용에 민감한 대규모 프로덕션이라면 GA 출시 시점을 확인 후 의존도를 높이는 게 안전합니다.

▲ 목차로 돌아가기

마치며

Gemini Embedding 2가 기술적으로 의미 있는 모델인 건 맞습니다. 텍스트·이미지·영상·오디오를 한 번에 하나의 벡터 공간으로 통합한다는 발상 자체가 기존 파이프라인의 구조를 단순화할 수 있습니다. Sparkonomy의 지연시간 70% 감소 사례는 다중 모달 데이터를 다루는 서비스에서 실질적인 효과가 있다는 걸 보여줍니다.

다만 “멀티모달 임베딩 = 무조건 써야 한다”는 결론은 성급합니다. 텍스트만 쓴다면 OpenAI보다 비싸고, 오디오·영상은 텍스트 대비 32~60배 비쌉니다. 배치 처리도 현재 안 됩니다. Preview 딱지가 떼어지기 전에는 GA 이후 변경 가능성도 열어둬야 합니다.

결론부터 말씀드리면, 이미지·영상·오디오를 한 검색 인터페이스로 통합해야 하는 서비스라면 현재 가장 현실적인 선택지입니다. 그 외의 상황에선 비용 계산부터 먼저 해보는 게 맞습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Google DeepMind Blog — Gemini Embedding 2 공식 발표 (2026.03.10) → 공식 링크
  2. Google AI for Developers — Gemini Embedding 2 Preview 모델 카드 → 공식 링크
  3. Google Gemini API 공식 가격 페이지 (2026.03) → 공식 링크
  4. VentureBeat — Gemini Embedding 2 기업 사례 분석 (2026.03.11) → 링크
  5. TokenCost.app — Gemini Embedding 2 가격 비교 분석 (2026.03.12) → 링크
  6. MarkTechPost — Gemini Embedding 2 기술 분석 (2026.03.11) → 링크

본 포스팅은 2026년 3월 18일 기준으로 작성되었습니다. Gemini Embedding 2는 현재 Public Preview 상태로, 본 포스팅 작성 이후 서비스 정책·가격·UI·기능이 변경될 수 있습니다. 특히 Preview 모델 특성상 GA(정식 출시) 단계에서 스펙과 요금이 달라질 수 있으니, 실제 적용 전 공식 문서를 반드시 재확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기