GN⁺: voyage-multimodal-3 : 텍스트, 이미지 및 스크린샷을 위한 올인원 임베딩 모델
(blog.voyageai.com)-
voyage-multimodal-3는 텍스트와 이미지가 혼합된 문서에서 시각적 및 텍스트적 특징을 벡터화할 수 있는 최첨단 모델임
- PDF, 슬라이드, 표, 그림 등의 스크린샷에서 주요 시각적 특징을 포착하여 복잡한 문서 파싱의 필요성을 제거함
- 20개의 데이터셋을 사용한 3가지 멀티모달 검색 작업에서 평균 19.63%의 검색 정확도 향상을 보임
-
기존 모델과의 비교
- voyage-multimodal-3는 OpenAI CLIP large 및 Cohere multimodal v3보다 테이블/그림 검색에서 각각 41.44% 및 43.37% 더 우수한 성능을 보임
- 문서 스크린샷 검색에서 각각 26.54% 및 25.84% 더 우수한 성능을 보임
- 텍스트-사진 검색에서 각각 6.55% 및 5.86% 더 우수한 성능을 보임
-
텍스트와 이미지의 혼합 지원
- 기존 멀티모달 임베딩 모델은 텍스트와 이미지를 별도의 네트워크로 처리하지만, voyage-multimodal-3는 동일한 트랜스포머 인코더를 통해 두 가지 모드를 직접 벡터화함
- 이는 시각적 및 텍스트적 정보 간의 맥락적 관계를 보존하여 혼합된 텍스트와 이미지, 문서 스크린샷, 복잡한 레이아웃의 PDF 등을 벡터화할 수 있게 함
-
스크린샷을 통한 혼합 모드 검색
- CLIP 유사 모델은 모드 간 격차로 인해 혼합 모드 검색에서 성능이 저하됨
- voyage-multimodal-3는 모든 스크린샷 비율에서 가장 우수한 성능을 보이며, 스크린샷의 의미적 내용을 진정으로 포착함
-
평가 세부사항
- voyage-multimodal-3는 20개의 멀티모달 데이터셋과 34개의 텍스트 검색 데이터셋에서 평가됨
- 각 작업에 대해 이전의 최고 성능 모델을 기준으로 평가함
-
결과
- 멀티모달 검색에서 voyage-multimodal-3는 OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M, ColQwen2 v0.1보다 우수한 성능을 보임
- 표준 텍스트 검색에서 OpenAI v3 large 및 Cohere multimodal/English1 v3보다 각각 5.13% 및 13.70% 더 우수한 성능을 보임
-
사용 안내
- voyage-multimodal-3는 현재 사용 가능하며, 첫 2억 개의 토큰은 무료로 제공됨
- 샘플 노트북을 통해 시작하거나 문서를 참조하여 더 많은 정보를 얻을 수 있음
Hacker News 의견
- CLIP 모델은 혼합 모달리티 검색에서 성능이 떨어지는 현상이 있음. 이는 모달리티 갭 때문이며, 텍스트 벡터가 관련 없는 텍스트와 더 가깝게 나타나는 문제를 발생시킴
- Google의 Gemini는 본래부터 멀티모달로 설계되어 이러한 문제를 개선함. 다양한 모달리티로 사전 훈련되어 모든 입력을 효과적으로 이해하고 추론할 수 있음
- ColiVara 프로젝트는 ColPali를 사용하여 멀티모달 모델을 구현함. Vidore 리더보드에서 VoyageAI의 성능을 비교하고 싶음
- 상업적 모델이 API 전용으로 제공되는 점이 아쉬움
- API 전용 모델에 대한 비판적 시각이 필요함. 특히 비영어 텍스트에 대한 평가가 필요함
- 실제 데이터셋을 사용하여 질적 분석을 수행하는 것이 중요함. 정량적 벤치마크는 유용하지만 드물게 사용됨
- 멀티모달 임베딩을 보는 흥미로운 방법임. 입력이 한 모달리티에서 다른 모달리티로 전환되는 비율로 성능을 평가함
- Voyage 엔진은 전통적인 Python API에서 텍스트 블록을 토큰화하여 문자 문자열을 출력함. 이 모델은 이미지 벡터화를 통해 이를 수행함
- 'you'와 'apple' 같은 단어는 단일 토큰으로 처리되며, 'pikachu' 같은 복잡한 용어는 'pik-a-chu'로 나뉠 수 있음
- 콜랩에서 점곱 값 0.428과 0.498을 "유사성 값이 꽤 높음"으로 설명함. 0.4 임계값으로 데이터를 자신 있게 레이블링할 수 있는 시스템을 설계할 수 있는지에 대한 의문이 있음