voyage-multimodal-3 : 텍스트, 이미지

▲

GN⁺ 2024-11-18 | parent | ★ favorite | on: voyage-multimodal-3 : 텍스트, 이미지 및 스크린샷을 위한 올인원 임베딩 모델(blog.voyageai.com)

Hacker News 의견

CLIP 모델은 혼합 모달리티 검색에서 성능이 떨어지는 현상이 있음. 이는 모달리티 갭 때문이며, 텍스트 벡터가 관련 없는 텍스트와 더 가깝게 나타나는 문제를 발생시킴
- Google의 Gemini는 본래부터 멀티모달로 설계되어 이러한 문제를 개선함. 다양한 모달리티로 사전 훈련되어 모든 입력을 효과적으로 이해하고 추론할 수 있음
ColiVara 프로젝트는 ColPali를 사용하여 멀티모달 모델을 구현함. Vidore 리더보드에서 VoyageAI의 성능을 비교하고 싶음
상업적 모델이 API 전용으로 제공되는 점이 아쉬움
API 전용 모델에 대한 비판적 시각이 필요함. 특히 비영어 텍스트에 대한 평가가 필요함
실제 데이터셋을 사용하여 질적 분석을 수행하는 것이 중요함. 정량적 벤치마크는 유용하지만 드물게 사용됨
멀티모달 임베딩을 보는 흥미로운 방법임. 입력이 한 모달리티에서 다른 모달리티로 전환되는 비율로 성능을 평가함
Voyage 엔진은 전통적인 Python API에서 텍스트 블록을 토큰화하여 문자 문자열을 출력함. 이 모델은 이미지 벡터화를 통해 이를 수행함
- 'you'와 'apple' 같은 단어는 단일 토큰으로 처리되며, 'pikachu' 같은 복잡한 용어는 'pik-a-chu'로 나뉠 수 있음
콜랩에서 점곱 값 0.428과 0.498을 "유사성 값이 꽤 높음"으로 설명함. 0.4 임계값으로 데이터를 자신 있게 레이블링할 수 있는 시스템을 설계할 수 있는지에 대한 의문이 있음