15P by xguru 11달전 | favorite | 댓글과 토론
  • GPT-4에서 시연된 것과 유사한 새로운 비전-언어 기능을 제공
    • 이미지에 대해 자세히 설명하고, 음식사진으로 요리방법을 알려주거나, 문제점을 찾거나, 광고문구를 만들거나, 이미지에서 영감받은 이야기와 시를 작성
  • 단 하나의 프로젝션 레이어를 이용하여 BLIP-2 와 Vicuna를 연결한 것만으로 뛰어난 성능을 보여줌
  • 2단계로 훈련했음
    • 5백만개의 이미지-텍스트 페어를 4개의 A100으로 10시간 훈련. 이 단계만으로는 Vicuna가 이미지를 이해하지만, 생성능력이 크게 영향을 받음
    • 문제를 해결하고 사용성을 개선하기 위해, 모델 자체와 ChatGPT를 함께 이용해서 고품질 이미지-텍스트 쌍을 생성하는 새로운 방법을 제안
    • 이 기반으로 작은 규모(총 3500쌍)의 고품질 데이터 셋을 생성
    • 2번째 파인튜닝 단계에서는 이 작은 데이터 셋을 대화형 템플릿으로 학습시켜서 생성에 대한 신뢰성과 전반적인 사용성을 개선
    • 놀랍게도 이 단계는 계산 효율이 높아서 A100 한대로 7분밖에 걸리지 않음