MiniGPT-4 : 고급 LLM을 이용한 비젼-언어 이해도 향상
(minigpt-4.github.io)- GPT-4에서 시연된 것과 유사한 새로운 비전-언어 기능을 제공
- 이미지에 대해 자세히 설명하고, 음식사진으로 요리방법을 알려주거나, 문제점을 찾거나, 광고문구를 만들거나, 이미지에서 영감받은 이야기와 시를 작성
- 단 하나의 프로젝션 레이어를 이용하여 BLIP-2 와 Vicuna를 연결한 것만으로 뛰어난 성능을 보여줌
- 2단계로 훈련했음
- 5백만개의 이미지-텍스트 페어를 4개의 A100으로 10시간 훈련. 이 단계만으로는 Vicuna가 이미지를 이해하지만, 생성능력이 크게 영향을 받음
- 문제를 해결하고 사용성을 개선하기 위해, 모델 자체와 ChatGPT를 함께 이용해서 고품질 이미지-텍스트 쌍을 생성하는 새로운 방법을 제안
- 이 기반으로 작은 규모(총 3500쌍)의 고품질 데이터 셋을 생성
- 2번째 파인튜닝 단계에서는 이 작은 데이터 셋을 대화형 템플릿으로 학습시켜서 생성에 대한 신뢰성과 전반적인 사용성을 개선
- 놀랍게도 이 단계는 계산 효율이 높아서 A100 한대로 7분밖에 걸리지 않음