4P by xguru 27일전 | favorite | 댓글과 토론
  • 고해상도 이미지를 여러 작은 영역으로 나누어 분석하여 세부적인 이해와 추론이 가능한 vision-language 아키텍처 모델
  • Llama-3-8b-Dragonfly-v1 (일반 도메인), Llama-3-8b-Dragonfly-Med-v1 (의료 도메인) 등 2개의 오픈소스 모델을 공개
  • Llama-3-8b-Dragonfly-v1은 550만개의 이미지-지시문 쌍으로 학습되었고, Llama-3-8b-Dragonfly-Med-v1은 추가로 140만개의 의료 이미지-지시문으로 파인튜닝 됨
  • Dragonfly는 시각적 상식 추론, 이미지 캡셔닝 등의 벤치마크에서 우수한 성능을 보임
  • Dragonfly-Med는 의료 이미지 이해 분야에서 Med-Gemini 등 기존 모델들을 능가함

Dragonfly 아키텍처

  • 다중 해상도 시각 인코딩 (Multi-resolution Visual Encoding):

    • 저/중/고 해상도로 이미지를 처리함
    • 각 이미지를 해상도에 따라 여러 개의 서브 이미지로 나누고, 이를 시각 토큰으로 인코딩함
    • 인코딩된 토큰들을 language space로 projection하여 concatenate한 시퀀스를 LLM에 입력으로 넣음
    • 이를 통해 대용량 이미지를 효율적으로 처리하고, 시각 데이터 처리의 granularity를 높일 수 있음
  • Zoom-in Patch Selection:

    • 고해상도 이미지에서 중요한 시각적 디테일에 집중하기 위한 selective approach
    • 중요도가 높은 고해상도 서브 이미지만 선별해서 사용하는 novel한 zoom-in patch selection 전략 사용
    • 중/고해상도 서브 이미지의 summary embedding을 비교하여 가장 연관성 높은 패치만 선택함
    • 이를 통해 중복을 제거하고 핵심 콘텐츠 영역에 집중함으로써 전반적인 모델 효율성과 세부 영역 이해도를 높임
  • 이 두 가지 전략을 통해 이미지 영역의 세부 디테일에 더 집중하고 상식적 추론 능력을 향상시킴.

  • 세부 정보 포착에 최적화되었음에도 VQA, 이미지 캡셔닝 등 일반적인 이미지 이해 벤치마크에서 좋은 제로샷 성능을 보임.

Dragonfly 모델 성능 평가

  • AI2D, ScienceQA, MMMU, MMVet, POPE 등 5개 vision-language 벤치마크에서 평가됨
    • AI2D, ScienceQA: 과학 도메인에서의 시각적 상식 추론 평가
    • MMMU, MMVet: vision-language 능력 종합 평가
    • POPE: 객체 단위 hallucination 평가
  • 다른 유명 vision-language 모델들과 견줄만한 우수한 성능을 보임

Dragonfly-Med 성능

  • Stanford Medicine과 협업하여 Dragonfly를 140만개 의료 이미지-지시문으로 추가 학습시킨 버전
  • VQA-RAD, SLAKE, Path-VQA 등 시각적 질의응답 벤치마크에서 Med-Gemini 등 기존 모델 성능을 뛰어넘음
  • IU X-Ray, Peir Gross, ROCO, MIMIC CXR 등 의료 이미지 캡셔닝 벤치마크에서도 SOTA에 준하는 성능을 보임

향후 계획

  • LLaMA3-8B-Instruct를 백본으로 새로운 아키텍처와 시각 인코딩 전략 등을 탐구할 예정
  • 더 다양한 과학 분야로 적용 범위를 넓혀서 오픈소스 멀티모달 연구에 기여하고자 함