4P by 230kimi 10시간전 | ★ favorite | 댓글 2개

Gemini embedding-2-preview(네이티브 멀티모달 임베딩)로 학술 논문 PDF의 텍스트 임베딩과 이미지 임베딩을 비교 실험한 결과 정리.

∙	같은 페이지의 텍스트↔이미지 코사인 유사도 평균 0.642. SEM 사진, 그래프 곡선, 공간 배치 등 약 36%의 시각 정보가 텍스트 임베딩에 반영되지 않음  
∙	18개 텍스트 쿼리로 검색 시, 이미지 인덱스(MRR 0.719)가 텍스트 인덱스(0.631)보다 우수. 핵심 용어가 여러 페이지에 반복되는 논문 특성상, 오히려 이미지가 페이지 구분력이 높았음  
∙	텍스트+이미지를 합친 Multi 임베딩(MRR 0.650)은 이미지 단독보다 낮음. 두 모달리티의 특징이 희석되는 효과  
∙	같은 문서 내 크로스모달 검색(텍스트→이미지)은 Hit@5 0%로 실패. 페이지 간 텍스트 유사도가 동일 페이지의 텍스트↔이미지 유사도보다 높기 때문  

Figure가 많은 문서에서는 이미지 인덱싱이 유리하며, “일단 텍스트 뽑고 벡터화”라는 RAG 기본값을 재고할 필요가 있다는 결론.

ColPali와 비교해서는 어떤가요?

영문은 colpali가 확실히 더 좋은것 같습니다. 다만 한국어나 비영어권에서 정확도가 확 내려가더라구요 ㅠㅠ