Dragonfly - 멀티 해상도 줌이 가능한 대규모 비젼-언어 모델

(together.ai)

고해상도 이미지를 여러 작은 영역으로 나누어 분석하여 세부적인 이해와 추론이 가능한 vision-language 아키텍처 모델
Llama-3-8b-Dragonfly-v1 (일반 도메인), Llama-3-8b-Dragonfly-Med-v1 (의료 도메인) 등 2개의 오픈소스 모델을 공개
Llama-3-8b-Dragonfly-v1은 550만개의 이미지-지시문 쌍으로 학습되었고, Llama-3-8b-Dragonfly-Med-v1은 추가로 140만개의 의료 이미지-지시문으로 파인튜닝 됨
Dragonfly는 시각적 상식 추론, 이미지 캡셔닝 등의 벤치마크에서 우수한 성능을 보임
Dragonfly-Med는 의료 이미지 이해 분야에서 Med-Gemini 등 기존 모델들을 능가함

다중 해상도 시각 인코딩 (Multi-resolution Visual Encoding):
- 저/중/고 해상도로 이미지를 처리함
- 각 이미지를 해상도에 따라 여러 개의 서브 이미지로 나누고, 이를 시각 토큰으로 인코딩함
- 인코딩된 토큰들을 language space로 projection하여 concatenate한 시퀀스를 LLM에 입력으로 넣음
- 이를 통해 대용량 이미지를 효율적으로 처리하고, 시각 데이터 처리의 granularity를 높일 수 있음
Zoom-in Patch Selection:
- 고해상도 이미지에서 중요한 시각적 디테일에 집중하기 위한 selective approach
- 중요도가 높은 고해상도 서브 이미지만 선별해서 사용하는 novel한 zoom-in patch selection 전략 사용
- 중/고해상도 서브 이미지의 summary embedding을 비교하여 가장 연관성 높은 패치만 선택함
- 이를 통해 중복을 제거하고 핵심 콘텐츠 영역에 집중함으로써 전반적인 모델 효율성과 세부 영역 이해도를 높임
이 두 가지 전략을 통해 이미지 영역의 세부 디테일에 더 집중하고 상식적 추론 능력을 향상시킴.
세부 정보 포착에 최적화되었음에도 VQA, 이미지 캡셔닝 등 일반적인 이미지 이해 벤치마크에서 좋은 제로샷 성능을 보임.

AI2D, ScienceQA, MMMU, MMVet, POPE 등 5개 vision-language 벤치마크에서 평가됨
- AI2D, ScienceQA: 과학 도메인에서의 시각적 상식 추론 평가
- MMMU, MMVet: vision-language 능력 종합 평가
- POPE: 객체 단위 hallucination 평가
다른 유명 vision-language 모델들과 견줄만한 우수한 성능을 보임