# Gemini Embedding 2: 최초의 네이티브 멀티모달 임베딩 모델

> Clean Markdown view of GeekNews topic #27397. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=27397](https://news.hada.io/topic?id=27397)
- GeekNews Markdown: [https://news.hada.io/topic/27397.md](https://news.hada.io/topic/27397.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-03-11T10:23:01+09:00
- Updated: 2026-03-11T10:23:01+09:00
- Original source: [blog.google](https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/)
- Points: 14
- Comments: 0

## Summary

**Gemini Embedding 2**는 텍스트·이미지·비디오·오디오·문서를 **하나의 임베딩 공간**에 매핑하는 최초의 네이티브 멀티모달 모델로, Gemini 아키텍처의 언어 이해력을 그대로 확장합니다. Matryoshka Representation Learning 기법을 통해 3072차원 임베딩을 유연하게 축소할 수 있어, 성능과 스토리지 비용 간의 균형을 세밀하게 조정할 수 있습니다. Gemini API와 Vertex AI에서 바로 사용할 수 있으며, LangChain·LlamaIndex 등 주요 생태계 도구와의 통합도 이미 지원합니다.

## Topic Body

- 텍스트, 이미지, 비디오, 오디오, 문서를 **하나의 임베딩 공간**에 매핑하는 최초의 완전 멀티모달 임베딩 모델이 퍼블릭 프리뷰로 공개  
- Gemini 아키텍처 기반으로 100개 이상의 언어에서 **시맨틱 의도를 포착**하며, RAG·시맨틱 검색·감성 분석·데이터 클러스터링 등 다양한 다운스트림 작업 지원  
- **Matryoshka Representation Learning(MRL)** 기법을 적용해 기본 3072 차원에서 유연하게 축소 가능, 성능과 스토리지 비용 간 균형 조절 가능  
- 텍스트·이미지·비디오 작업에서 기존 선도 모델을 능가하는 **새로운 성능 기준** 수립, 음성 임베딩 역량도 새롭게 도입  
- Gemini API와 Vertex AI를 통해 즉시 사용 가능하며, LangChain·LlamaIndex·Weaviate 등 주요 **서드파티 프레임워크와 통합** 지원  
  
---  
  
### 새로운 모달리티와 유연한 출력 차원  
  
- Gemini 기반으로 **멀티모달 이해 역량**을 활용해 다양한 입력 유형에 대한 고품질 임베딩 생성  
  - **텍스트**: 최대 8192 입력 토큰의 넓은 컨텍스트 지원  
  - **이미지**: 요청당 최대 6개 이미지 처리, PNG 및 JPEG 포맷 지원  
  - **비디오**: MP4, MOV 포맷으로 최대 120초 비디오 입력 지원  
  - **오디오**: 중간 텍스트 변환 없이 오디오 데이터를 **네이티브로 임베딩**  
  - **문서**: 최대 6페이지 PDF를 직접 임베딩  
- 단일 모달리티뿐 아니라 **인터리브드 입력**(예: 이미지 + 텍스트)을 하나의 요청으로 전달 가능하여, 서로 다른 미디어 유형 간의 복잡하고 미묘한 관계까지 포착  
- **Matryoshka Representation Learning(MRL)** 기법으로 정보를 계층적으로 중첩(nest)하여 차원을 동적으로 축소 가능  
  - 기본 3072 차원에서 1536, 768 등으로 유연하게 스케일 다운  
  - 최고 품질을 위해 3072, 1536, 768 차원 사용 권장  
  
### 최첨단 성능  
  
- 레거시 모델 대비 단순 개선이 아닌 **멀티모달 깊이에서 새로운 성능 표준** 수립  
- 텍스트, 이미지, 비디오 작업에서 기존 선도 모델을 능가하며, **강력한 음성 임베딩 역량**을 새롭게 도입  
- 다양한 임베딩 요구에 대응할 수 있는 측정 가능한 성능 향상과 고유한 멀티모달 커버리지 제공  
  
### 데이터의 더 깊은 의미 도출 — 얼리 액세스 파트너 사례  
  
- 임베딩 기술은 다수의 Google 제품에서 경험을 구동하는 핵심 기술이며, RAG의 **컨텍스트 엔지니어링**부터 대규모 데이터 관리, 검색·분석까지 활용  
- **Everlaw** (Max Christoff, CTO): 소송 디스커버리 과정에서 법률 전문가가 핵심 정보를 찾도록 Gemini 임베딩 채택, 수백만 건 기록에서 **정밀도와 재현율 향상**, 이미지·비디오에 대한 강력한 새 검색 기능 활용  
- **Sparkonomy** (Guneet Singh, 공동 창업자): Creator Economic Equality Engine의 기반으로 활용, 네이티브 멀티모달리티로 **지연 시간 최대 70% 감소**, 텍스트-이미지·텍스트-비디오 쌍의 시맨틱 유사도 점수가 0.4에서 0.8로 거의 2배 향상, 수백만 분의 비디오를 전례 없는 정밀도로 인덱싱  
- **Mindlid** (Ertuğrul Çavuşoğlu, 공동 창업자): 기존 워크플로에 최소한의 변경으로 바로 적용 가능한 **우수한 API 연속성**, 텍스트 기반 대화 메모리를 오디오·비주얼 임베딩과 함께 임베딩하는 방식을 테스트 중이며, 개인 웰니스 앱에서 **top-1 리콜 20% 향상** 확인  
  
### 시작하기  
  
- **Gemini API** 또는 **Vertex AI**를 통해 Gemini Embedding 2 모델 사용 가능  
- Python SDK로 텍스트, 이미지, 오디오를 단일 호출로 임베딩하는 코드 예제 제공  
- Gemini API 및 Vertex AI용 **인터랙티브 Colab 노트북** 제공  
- LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB, Vector Search 등 주요 서드파티 도구와 통합 지원

## Comments



_No public comments on this page._
