Hacker News 의견
  • CLIP 모델은 혼합 모달리티 검색에서 성능이 떨어지는 현상이 있음. 이는 모달리티 갭 때문이며, 텍스트 벡터가 관련 없는 텍스트와 더 가깝게 나타나는 문제를 발생시킴
    • Google의 Gemini는 본래부터 멀티모달로 설계되어 이러한 문제를 개선함. 다양한 모달리티로 사전 훈련되어 모든 입력을 효과적으로 이해하고 추론할 수 있음
  • ColiVara 프로젝트는 ColPali를 사용하여 멀티모달 모델을 구현함. Vidore 리더보드에서 VoyageAI의 성능을 비교하고 싶음
  • 상업적 모델이 API 전용으로 제공되는 점이 아쉬움
  • API 전용 모델에 대한 비판적 시각이 필요함. 특히 비영어 텍스트에 대한 평가가 필요함
  • 실제 데이터셋을 사용하여 질적 분석을 수행하는 것이 중요함. 정량적 벤치마크는 유용하지만 드물게 사용됨
  • 멀티모달 임베딩을 보는 흥미로운 방법임. 입력이 한 모달리티에서 다른 모달리티로 전환되는 비율로 성능을 평가함
  • Voyage 엔진은 전통적인 Python API에서 텍스트 블록을 토큰화하여 문자 문자열을 출력함. 이 모델은 이미지 벡터화를 통해 이를 수행함
    • 'you'와 'apple' 같은 단어는 단일 토큰으로 처리되며, 'pikachu' 같은 복잡한 용어는 'pik-a-chu'로 나뉠 수 있음
  • 콜랩에서 점곱 값 0.428과 0.498을 "유사성 값이 꽤 높음"으로 설명함. 0.4 임계값으로 데이터를 자신 있게 레이블링할 수 있는 시스템을 설계할 수 있는지에 대한 의문이 있음