PaliGemma - 구글의 오픈 멀티모달 모델

xguru · 2024-05-20T10:06:01+09:00

PaliGemma는 멀티모달 모델로, 객체 감지 및 분할 등의 작업에서 다른 VLM(비전언어모델)들과 달리 우수한 성능을 보임 특정 작업에 대해 성능을 향상시키기 위해 파인 튜닝 가능 2024년 Google I/O 이벤트에서 발표. SigLIP이라는 비전 모델과 Gemma라는 대형 언어 모델을 결합. 트랜스포머 디코더와 비전 트랜스포머 이미지 인코더로 구성되며, 이미지와 텍스트를 모두 입력으로 받아 텍스트를 출력하며 여러 언어를 지원함 모델은 30억 개의 결합 파라미터로 상대적으로 작은 크기이며, 상업적 사용이 허용되고 이미지/짧은 동영상 캡션, 시각적 질의응답, 텍스트 읽기, 객체 감지, 객체 분할 등의 작업에 파인튜닝이 가능함 싱글 턴 VLM으로, 특정 사용 사례에 맞게 파인튜닝할 때 가장 잘 작동함 이미지 캡션 작성, 비디오 캡션 작성, 시각적 질문 응답, 세분화 등의 작업에 적합함 OCR, 문서 이해, 시각적 질의응답(VQA), 객체 감지 등 다양한 컴퓨터 비전 작업에서 우수한 성능을 보임 폐쇄형 모델로는 해결하기 힘든 사용자 정의 애플리케이션 구축에 유용하며, OCR 분야에서도 성능과 비용 효율성 측면에서 최고 수준을 보임 다만 VLM의 한계로 개방형, 복잡하고 미묘한 추론 기반 문제에는 적합하지 않으며, 프롬프트에 민감한 특성이 있어 사용에 주의가 필요함 PaliGemma의 공개로 멀티모달 AI가 크게 발전할 것으로 기대. 가벼운 오픈 모델로, 누구나 자신만의 대형 비전 언어 모델을 맞춤형으로 훈련하고 상업적 목적으로 배포할 수 있음 이전의 LMM들은 매우 비싸고, 큰 연산 능력이 필요했으나, PaliGemma는 이러한 한계를 극복하고 맞춤형 AI 응용 프로그램을 만드는 데 혁신적인 모델

(blog.roboflow.com)

8P by xguru 2024-05-20 | ★ favorite | 댓글과 토론

PaliGemma는 멀티모달 모델로, 객체 감지 및 분할 등의 작업에서 다른 VLM(비전언어모델)들과 달리 우수한 성능을 보임
특정 작업에 대해 성능을 향상시키기 위해 파인 튜닝 가능
2024년 Google I/O 이벤트에서 발표. SigLIP이라는 비전 모델과 Gemma라는 대형 언어 모델을 결합.
트랜스포머 디코더와 비전 트랜스포머 이미지 인코더로 구성되며, 이미지와 텍스트를 모두 입력으로 받아 텍스트를 출력하며 여러 언어를 지원함
모델은 30억 개의 결합 파라미터로 상대적으로 작은 크기이며, 상업적 사용이 허용되고 이미지/짧은 동영상 캡션, 시각적 질의응답, 텍스트 읽기, 객체 감지, 객체 분할 등의 작업에 파인튜닝이 가능함
싱글 턴 VLM으로, 특정 사용 사례에 맞게 파인튜닝할 때 가장 잘 작동함
- 이미지 캡션 작성, 비디오 캡션 작성, 시각적 질문 응답, 세분화 등의 작업에 적합함
- OCR, 문서 이해, 시각적 질의응답(VQA), 객체 감지 등 다양한 컴퓨터 비전 작업에서 우수한 성능을 보임
폐쇄형 모델로는 해결하기 힘든 사용자 정의 애플리케이션 구축에 유용하며, OCR 분야에서도 성능과 비용 효율성 측면에서 최고 수준을 보임
다만 VLM의 한계로 개방형, 복잡하고 미묘한 추론 기반 문제에는 적합하지 않으며, 프롬프트에 민감한 특성이 있어 사용에 주의가 필요함
PaliGemma의 공개로 멀티모달 AI가 크게 발전할 것으로 기대. 가벼운 오픈 모델로, 누구나 자신만의 대형 비전 언어 모델을 맞춤형으로 훈련하고 상업적 목적으로 배포할 수 있음
이전의 LMM들은 매우 비싸고, 큰 연산 능력이 필요했으나, PaliGemma는 이러한 한계를 극복하고 맞춤형 AI 응용 프로그램을 만드는 데 혁신적인 모델

PaliGemma - 구글의 오픈 멀티모달 모델

함께 보면 좋은 글 β

댓글과 토론