8P by xguru 24일전 | favorite | 댓글과 토론
  • PaliGemma는 멀티모달 모델로, 객체 감지 및 분할 등의 작업에서 다른 VLM(비전언어모델)들과 달리 우수한 성능을 보임
  • 특정 작업에 대해 성능을 향상시키기 위해 파인 튜닝 가능
  • 2024년 Google I/O 이벤트에서 발표. SigLIP이라는 비전 모델과 Gemma라는 대형 언어 모델을 결합.
  • 트랜스포머 디코더와 비전 트랜스포머 이미지 인코더로 구성되며, 이미지와 텍스트를 모두 입력으로 받아 텍스트를 출력하며 여러 언어를 지원함
  • 모델은 30억 개의 결합 파라미터로 상대적으로 작은 크기이며, 상업적 사용이 허용되고 이미지/짧은 동영상 캡션, 시각적 질의응답, 텍스트 읽기, 객체 감지, 객체 분할 등의 작업에 파인튜닝이 가능함
  • 싱글 턴 VLM으로, 특정 사용 사례에 맞게 파인튜닝할 때 가장 잘 작동함
    • 이미지 캡션 작성, 비디오 캡션 작성, 시각적 질문 응답, 세분화 등의 작업에 적합함
    • OCR, 문서 이해, 시각적 질의응답(VQA), 객체 감지 등 다양한 컴퓨터 비전 작업에서 우수한 성능을 보임
  • 폐쇄형 모델로는 해결하기 힘든 사용자 정의 애플리케이션 구축에 유용하며, OCR 분야에서도 성능과 비용 효율성 측면에서 최고 수준을 보임
  • 다만 VLM의 한계로 개방형, 복잡하고 미묘한 추론 기반 문제에는 적합하지 않으며, 프롬프트에 민감한 특성이 있어 사용에 주의가 필요함
  • PaliGemma의 공개로 멀티모달 AI가 크게 발전할 것으로 기대. 가벼운 오픈 모델로, 누구나 자신만의 대형 비전 언어 모델을 맞춤형으로 훈련하고 상업적 목적으로 배포할 수 있음
  • 이전의 LMM들은 매우 비싸고, 큰 연산 능력이 필요했으나, PaliGemma는 이러한 한계를 극복하고 맞춤형 AI 응용 프로그램을 만드는 데 혁신적인 모델