Gemini Embedding 2: 최초의 네이티브 멀티모달 임베딩 모델

(blog.google)

텍스트, 이미지, 비디오, 오디오, 문서를 하나의 임베딩 공간에 매핑하는 최초의 완전 멀티모달 임베딩 모델이 퍼블릭 프리뷰로 공개
Gemini 아키텍처 기반으로 100개 이상의 언어에서 시맨틱 의도를 포착하며, RAG·시맨틱 검색·감성 분석·데이터 클러스터링 등 다양한 다운스트림 작업 지원
Matryoshka Representation Learning(MRL) 기법을 적용해 기본 3072 차원에서 유연하게 축소 가능, 성능과 스토리지 비용 간 균형 조절 가능
텍스트·이미지·비디오 작업에서 기존 선도 모델을 능가하는 새로운 성능 기준 수립, 음성 임베딩 역량도 새롭게 도입
Gemini API와 Vertex AI를 통해 즉시 사용 가능하며, LangChain·LlamaIndex·Weaviate 등 주요 서드파티 프레임워크와 통합 지원

새로운 모달리티와 유연한 출력 차원

Gemini 기반으로 멀티모달 이해 역량을 활용해 다양한 입력 유형에 대한 고품질 임베딩 생성
- 텍스트: 최대 8192 입력 토큰의 넓은 컨텍스트 지원
- 이미지: 요청당 최대 6개 이미지 처리, PNG 및 JPEG 포맷 지원
- 비디오: MP4, MOV 포맷으로 최대 120초 비디오 입력 지원
- 오디오: 중간 텍스트 변환 없이 오디오 데이터를 네이티브로 임베딩
- 문서: 최대 6페이지 PDF를 직접 임베딩
단일 모달리티뿐 아니라 인터리브드 입력(예: 이미지 + 텍스트)을 하나의 요청으로 전달 가능하여, 서로 다른 미디어 유형 간의 복잡하고 미묘한 관계까지 포착
Matryoshka Representation Learning(MRL) 기법으로 정보를 계층적으로 중첩(nest)하여 차원을 동적으로 축소 가능
- 기본 3072 차원에서 1536, 768 등으로 유연하게 스케일 다운
- 최고 품질을 위해 3072, 1536, 768 차원 사용 권장

임베딩 기술은 다수의 Google 제품에서 경험을 구동하는 핵심 기술이며, RAG의 컨텍스트 엔지니어링부터 대규모 데이터 관리, 검색·분석까지 활용
Everlaw (Max Christoff, CTO): 소송 디스커버리 과정에서 법률 전문가가 핵심 정보를 찾도록 Gemini 임베딩 채택, 수백만 건 기록에서 정밀도와 재현율 향상, 이미지·비디오에 대한 강력한 새 검색 기능 활용
Sparkonomy (Guneet Singh, 공동 창업자): Creator Economic Equality Engine의 기반으로 활용, 네이티브 멀티모달리티로 지연 시간 최대 70% 감소, 텍스트-이미지·텍스트-비디오 쌍의 시맨틱 유사도 점수가 0.4에서 0.8로 거의 2배 향상, 수백만 분의 비디오를 전례 없는 정밀도로 인덱싱
Mindlid (Ertuğrul Çavuşoğlu, 공동 창업자): 기존 워크플로에 최소한의 변경으로 바로 적용 가능한 우수한 API 연속성, 텍스트 기반 대화 메모리를 오디오·비주얼 임베딩과 함께 임베딩하는 방식을 테스트 중이며, 개인 웰니스 앱에서 top-1 리콜 20% 향상 확인

Gemini API 또는 Vertex AI를 통해 Gemini Embedding 2 모델 사용 가능
Python SDK로 텍스트, 이미지, 오디오를 단일 호출로 임베딩하는 코드 예제 제공
Gemini API 및 Vertex AI용 인터랙티브 Colab 노트북 제공
LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB, Vector Search 등 주요 서드파티 도구와 통합 지원