voyage-multimodal-3 : 텍스트, 이미지 및 스크린샷을 위한 올인원 임베딩 모델

(blog.voyageai.com)

4P by GN⁺ 7달전 | ★ favorite | 댓글 1개

voyage-multimodal-3는 텍스트와 이미지가 혼합된 문서에서 시각적 및 텍스트적 특징을 벡터화할 수 있는 최첨단 모델임
- PDF, 슬라이드, 표, 그림 등의 스크린샷에서 주요 시각적 특징을 포착하여 복잡한 문서 파싱의 필요성을 제거함
- 20개의 데이터셋을 사용한 3가지 멀티모달 검색 작업에서 평균 19.63%의 검색 정확도 향상을 보임
기존 모델과의 비교
- voyage-multimodal-3는 OpenAI CLIP large 및 Cohere multimodal v3보다 테이블/그림 검색에서 각각 41.44% 및 43.37% 더 우수한 성능을 보임
- 문서 스크린샷 검색에서 각각 26.54% 및 25.84% 더 우수한 성능을 보임
- 텍스트-사진 검색에서 각각 6.55% 및 5.86% 더 우수한 성능을 보임
텍스트와 이미지의 혼합 지원
- 기존 멀티모달 임베딩 모델은 텍스트와 이미지를 별도의 네트워크로 처리하지만, voyage-multimodal-3는 동일한 트랜스포머 인코더를 통해 두 가지 모드를 직접 벡터화함
- 이는 시각적 및 텍스트적 정보 간의 맥락적 관계를 보존하여 혼합된 텍스트와 이미지, 문서 스크린샷, 복잡한 레이아웃의 PDF 등을 벡터화할 수 있게 함
스크린샷을 통한 혼합 모드 검색
- CLIP 유사 모델은 모드 간 격차로 인해 혼합 모드 검색에서 성능이 저하됨
- voyage-multimodal-3는 모든 스크린샷 비율에서 가장 우수한 성능을 보이며, 스크린샷의 의미적 내용을 진정으로 포착함
평가 세부사항
- voyage-multimodal-3는 20개의 멀티모달 데이터셋과 34개의 텍스트 검색 데이터셋에서 평가됨
- 각 작업에 대해 이전의 최고 성능 모델을 기준으로 평가함
결과
- 멀티모달 검색에서 voyage-multimodal-3는 OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M, ColQwen2 v0.1보다 우수한 성능을 보임
- 표준 텍스트 검색에서 OpenAI v3 large 및 Cohere multimodal/English1 v3보다 각각 5.13% 및 13.70% 더 우수한 성능을 보임
사용 안내
- voyage-multimodal-3는 현재 사용 가능하며, 첫 2억 개의 토큰은 무료로 제공됨
- 샘플 노트북을 통해 시작하거나 문서를 참조하여 더 많은 정보를 얻을 수 있음

▲

GN⁺ 7달전 [-]

Hacker News 의견

CLIP 모델은 혼합 모달리티 검색에서 성능이 떨어지는 현상이 있음. 이는 모달리티 갭 때문이며, 텍스트 벡터가 관련 없는 텍스트와 더 가깝게 나타나는 문제를 발생시킴
- Google의 Gemini는 본래부터 멀티모달로 설계되어 이러한 문제를 개선함. 다양한 모달리티로 사전 훈련되어 모든 입력을 효과적으로 이해하고 추론할 수 있음
ColiVara 프로젝트는 ColPali를 사용하여 멀티모달 모델을 구현함. Vidore 리더보드에서 VoyageAI의 성능을 비교하고 싶음
상업적 모델이 API 전용으로 제공되는 점이 아쉬움
API 전용 모델에 대한 비판적 시각이 필요함. 특히 비영어 텍스트에 대한 평가가 필요함
실제 데이터셋을 사용하여 질적 분석을 수행하는 것이 중요함. 정량적 벤치마크는 유용하지만 드물게 사용됨
멀티모달 임베딩을 보는 흥미로운 방법임. 입력이 한 모달리티에서 다른 모달리티로 전환되는 비율로 성능을 평가함
Voyage 엔진은 전통적인 Python API에서 텍스트 블록을 토큰화하여 문자 문자열을 출력함. 이 모델은 이미지 벡터화를 통해 이를 수행함
- 'you'와 'apple' 같은 단어는 단일 토큰으로 처리되며, 'pikachu' 같은 복잡한 용어는 'pik-a-chu'로 나뉠 수 있음
콜랩에서 점곱 값 0.428과 0.498을 "유사성 값이 꽤 높음"으로 설명함. 0.4 임계값으로 데이터를 자신 있게 레이블링할 수 있는 시스템을 설계할 수 있는지에 대한 의문이 있음

답변달기