9P by GN⁺ 19시간전 | ★ favorite | 댓글과 토론
  • 텍스트, 이미지, 비디오, 오디오, 문서를 하나의 임베딩 공간에 매핑하는 최초의 완전 멀티모달 임베딩 모델이 퍼블릭 프리뷰로 공개
  • Gemini 아키텍처 기반으로 100개 이상의 언어에서 시맨틱 의도를 포착하며, RAG·시맨틱 검색·감성 분석·데이터 클러스터링 등 다양한 다운스트림 작업 지원
  • Matryoshka Representation Learning(MRL) 기법을 적용해 기본 3072 차원에서 유연하게 축소 가능, 성능과 스토리지 비용 간 균형 조절 가능
  • 텍스트·이미지·비디오 작업에서 기존 선도 모델을 능가하는 새로운 성능 기준 수립, 음성 임베딩 역량도 새롭게 도입
  • Gemini API와 Vertex AI를 통해 즉시 사용 가능하며, LangChain·LlamaIndex·Weaviate 등 주요 서드파티 프레임워크와 통합 지원

새로운 모달리티와 유연한 출력 차원

  • Gemini 기반으로 멀티모달 이해 역량을 활용해 다양한 입력 유형에 대한 고품질 임베딩 생성
    • 텍스트: 최대 8192 입력 토큰의 넓은 컨텍스트 지원
    • 이미지: 요청당 최대 6개 이미지 처리, PNG 및 JPEG 포맷 지원
    • 비디오: MP4, MOV 포맷으로 최대 120초 비디오 입력 지원
    • 오디오: 중간 텍스트 변환 없이 오디오 데이터를 네이티브로 임베딩
    • 문서: 최대 6페이지 PDF를 직접 임베딩
  • 단일 모달리티뿐 아니라 인터리브드 입력(예: 이미지 + 텍스트)을 하나의 요청으로 전달 가능하여, 서로 다른 미디어 유형 간의 복잡하고 미묘한 관계까지 포착
  • Matryoshka Representation Learning(MRL) 기법으로 정보를 계층적으로 중첩(nest)하여 차원을 동적으로 축소 가능
    • 기본 3072 차원에서 1536, 768 등으로 유연하게 스케일 다운
    • 최고 품질을 위해 3072, 1536, 768 차원 사용 권장

최첨단 성능

  • 레거시 모델 대비 단순 개선이 아닌 멀티모달 깊이에서 새로운 성능 표준 수립
  • 텍스트, 이미지, 비디오 작업에서 기존 선도 모델을 능가하며, 강력한 음성 임베딩 역량을 새롭게 도입
  • 다양한 임베딩 요구에 대응할 수 있는 측정 가능한 성능 향상과 고유한 멀티모달 커버리지 제공

데이터의 더 깊은 의미 도출 — 얼리 액세스 파트너 사례

  • 임베딩 기술은 다수의 Google 제품에서 경험을 구동하는 핵심 기술이며, RAG의 컨텍스트 엔지니어링부터 대규모 데이터 관리, 검색·분석까지 활용
  • Everlaw (Max Christoff, CTO): 소송 디스커버리 과정에서 법률 전문가가 핵심 정보를 찾도록 Gemini 임베딩 채택, 수백만 건 기록에서 정밀도와 재현율 향상, 이미지·비디오에 대한 강력한 새 검색 기능 활용
  • Sparkonomy (Guneet Singh, 공동 창업자): Creator Economic Equality Engine의 기반으로 활용, 네이티브 멀티모달리티로 지연 시간 최대 70% 감소, 텍스트-이미지·텍스트-비디오 쌍의 시맨틱 유사도 점수가 0.4에서 0.8로 거의 2배 향상, 수백만 분의 비디오를 전례 없는 정밀도로 인덱싱
  • Mindlid (Ertuğrul Çavuşoğlu, 공동 창업자): 기존 워크플로에 최소한의 변경으로 바로 적용 가능한 우수한 API 연속성, 텍스트 기반 대화 메모리를 오디오·비주얼 임베딩과 함께 임베딩하는 방식을 테스트 중이며, 개인 웰니스 앱에서 top-1 리콜 20% 향상 확인

시작하기

  • Gemini API 또는 Vertex AI를 통해 Gemini Embedding 2 모델 사용 가능
  • Python SDK로 텍스트, 이미지, 오디오를 단일 호출로 임베딩하는 코드 예제 제공
  • Gemini API 및 Vertex AI용 인터랙티브 Colab 노트북 제공
  • LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB, Vector Search 등 주요 서드파티 도구와 통합 지원