# MiniGPT-4 : 고급 LLM을 이용한 비젼-언어 이해도 향상

> Clean Markdown view of GeekNews topic #8981. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=8981](https://news.hada.io/topic?id=8981)
- GeekNews Markdown: [https://news.hada.io/topic/8981.md](https://news.hada.io/topic/8981.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2023-04-18T11:21:01+09:00
- Updated: 2023-04-18T11:21:01+09:00
- Original source: [minigpt-4.github.io](https://minigpt-4.github.io/)
- Points: 15
- Comments: 0

## Topic Body

- GPT-4에서 시연된 것과 유사한 새로운 비전-언어 기능을 제공   
  - 이미지에 대해 자세히 설명하고, 음식사진으로 요리방법을 알려주거나, 문제점을 찾거나, 광고문구를 만들거나, 이미지에서 영감받은 이야기와 시를 작성   
- 단 하나의 프로젝션 레이어를 이용하여 BLIP-2 와 Vicuna를 연결한 것만으로 뛰어난 성능을 보여줌  
- 2단계로 훈련했음   
  - 5백만개의 이미지-텍스트 페어를 4개의 A100으로 10시간 훈련. 이 단계만으로는 Vicuna가 이미지를 이해하지만, 생성능력이 크게 영향을 받음   
  - 문제를 해결하고 사용성을 개선하기 위해, 모델 자체와 ChatGPT를 함께 이용해서 고품질 이미지-텍스트 쌍을 생성하는 새로운 방법을 제안   
  - 이 기반으로 작은 규모(총 3500쌍)의 고품질 데이터 셋을 생성   
  - 2번째 파인튜닝 단계에서는 이 작은 데이터 셋을 대화형 템플릿으로 학습시켜서 생성에 대한 신뢰성과 전반적인 사용성을 개선   
  - 놀랍게도 이 단계는 계산 효율이 높아서 A100 한대로 7분밖에 걸리지 않음

## Comments


_No public comments on this page._