4P by neo 10일전 | favorite | 댓글 1개
  • voyage-multimodal-3는 텍스트와 이미지가 혼합된 문서에서 시각적 및 텍스트적 특징을 벡터화할 수 있는 최첨단 모델임

    • PDF, 슬라이드, 표, 그림 등의 스크린샷에서 주요 시각적 특징을 포착하여 복잡한 문서 파싱의 필요성을 제거함
    • 20개의 데이터셋을 사용한 3가지 멀티모달 검색 작업에서 평균 19.63%의 검색 정확도 향상을 보임
  • 기존 모델과의 비교

    • voyage-multimodal-3는 OpenAI CLIP large 및 Cohere multimodal v3보다 테이블/그림 검색에서 각각 41.44% 및 43.37% 더 우수한 성능을 보임
    • 문서 스크린샷 검색에서 각각 26.54% 및 25.84% 더 우수한 성능을 보임
    • 텍스트-사진 검색에서 각각 6.55% 및 5.86% 더 우수한 성능을 보임
  • 텍스트와 이미지의 혼합 지원

    • 기존 멀티모달 임베딩 모델은 텍스트와 이미지를 별도의 네트워크로 처리하지만, voyage-multimodal-3는 동일한 트랜스포머 인코더를 통해 두 가지 모드를 직접 벡터화함
    • 이는 시각적 및 텍스트적 정보 간의 맥락적 관계를 보존하여 혼합된 텍스트와 이미지, 문서 스크린샷, 복잡한 레이아웃의 PDF 등을 벡터화할 수 있게 함
  • 스크린샷을 통한 혼합 모드 검색

    • CLIP 유사 모델은 모드 간 격차로 인해 혼합 모드 검색에서 성능이 저하됨
    • voyage-multimodal-3는 모든 스크린샷 비율에서 가장 우수한 성능을 보이며, 스크린샷의 의미적 내용을 진정으로 포착함
  • 평가 세부사항

    • voyage-multimodal-3는 20개의 멀티모달 데이터셋과 34개의 텍스트 검색 데이터셋에서 평가됨
    • 각 작업에 대해 이전의 최고 성능 모델을 기준으로 평가함
  • 결과

    • 멀티모달 검색에서 voyage-multimodal-3는 OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M, ColQwen2 v0.1보다 우수한 성능을 보임
    • 표준 텍스트 검색에서 OpenAI v3 large 및 Cohere multimodal/English1 v3보다 각각 5.13% 및 13.70% 더 우수한 성능을 보임
  • 사용 안내

    • voyage-multimodal-3는 현재 사용 가능하며, 첫 2억 개의 토큰은 무료로 제공됨
    • 샘플 노트북을 통해 시작하거나 문서를 참조하여 더 많은 정보를 얻을 수 있음
Hacker News 의견
  • CLIP 모델은 혼합 모달리티 검색에서 성능이 떨어지는 현상이 있음. 이는 모달리티 갭 때문이며, 텍스트 벡터가 관련 없는 텍스트와 더 가깝게 나타나는 문제를 발생시킴
    • Google의 Gemini는 본래부터 멀티모달로 설계되어 이러한 문제를 개선함. 다양한 모달리티로 사전 훈련되어 모든 입력을 효과적으로 이해하고 추론할 수 있음
  • ColiVara 프로젝트는 ColPali를 사용하여 멀티모달 모델을 구현함. Vidore 리더보드에서 VoyageAI의 성능을 비교하고 싶음
  • 상업적 모델이 API 전용으로 제공되는 점이 아쉬움
  • API 전용 모델에 대한 비판적 시각이 필요함. 특히 비영어 텍스트에 대한 평가가 필요함
  • 실제 데이터셋을 사용하여 질적 분석을 수행하는 것이 중요함. 정량적 벤치마크는 유용하지만 드물게 사용됨
  • 멀티모달 임베딩을 보는 흥미로운 방법임. 입력이 한 모달리티에서 다른 모달리티로 전환되는 비율로 성능을 평가함
  • Voyage 엔진은 전통적인 Python API에서 텍스트 블록을 토큰화하여 문자 문자열을 출력함. 이 모델은 이미지 벡터화를 통해 이를 수행함
    • 'you'와 'apple' 같은 단어는 단일 토큰으로 처리되며, 'pikachu' 같은 복잡한 용어는 'pik-a-chu'로 나뉠 수 있음
  • 콜랩에서 점곱 값 0.428과 0.498을 "유사성 값이 꽤 높음"으로 설명함. 0.4 임계값으로 데이터를 자신 있게 레이블링할 수 있는 시스템을 설계할 수 있는지에 대한 의문이 있음