6P by lemonmint 11일전 | favorite | 댓글과 토론

Google은 Gemma 제품군의 최신 비전-언어 모델인 PaliGemma 2를 발표했습니다. PaliGemma 2는 기존 Gemma 2 모델을 기반으로 하며, 이미지를 이해하고 상호 작용하는 기능을 추가하여 다양한 AI 애플리케이션의 가능성을 확장합니다.

  • 확장 가능한 성능: 다양한 모델 크기(3B, 10B, 28B 파라미터)와 해상도(224px, 448px, 896px)를 제공하여 다양한 작업에 최적화된 성능을 제공합니다.
  • 긴 캡션 생성: 이미지에 대한 상세하고 맥락에 맞는 캡션을 생성하며, 단순한 객체 식별을 넘어 행동, 감정, 장면의 전체적인 스토리를 설명합니다.
  • 새로운 영역 확장: 화학식 인식, 악보 인식, 공간 추론, 흉부 X선 보고서 생성 등 다양한 분야에서 뛰어난 성능을 보여줍니다.
  • 간편한 업그레이드 및 파인튜닝: 기존 PaliGemma 사용자는 간편하게 업그레이드할 수 있으며, 특정 작업 및 데이터 세트에 맞게 모델을 쉽게 파인튜닝할 수 있습니다.

Gemmaverse 생태계 확장:

PaliGemma 출시 이후 Gemma 제품군은 수만 개의 모델과 애플리케이션을 갖춘 활발한 생태계인 Gemmaverse로 빠르게 성장했습니다. ColPali의 시각적 문서 검색 발전, RoboFlow의 파인튜닝 기술, 실시간 객체 추적 발전 등 다양한 혁신적인 사례가 Gemmaverse의 잠재력을 보여줍니다.