# 페럿: 다중 모달 대형 언어 모델

> Clean Markdown view of GeekNews topic #12497. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=12497](https://news.hada.io/topic?id=12497)
- GeekNews Markdown: [https://news.hada.io/topic/12497.md](https://news.hada.io/topic/12497.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2023-12-24T09:46:04+09:00
- Updated: 2023-12-24T09:46:04+09:00
- Original source: [github.com/apple](https://github.com/apple/ml-ferret)
- Points: 2
- Comments: 0

## Topic Body

### Ferret 모델 개요
- Ferret 모델은 **하이브리드 영역 표현 및 공간 인식 시각 샘플러**를 통해 세밀하고 개방된 어휘로 참조 및 정밀 위치 지정이 가능함.
- GRIT 데이터셋(~1.1M)은 대규모, 계층적이며 강건한 지시어 튜닝 데이터셋임.
- Ferret-Bench는 참조/위치 지정, 의미, 지식, 추론을 동시에 요구하는 다중 모달 평가 벤치마크임.

### Ferret 모델 출시
- [12/14] 7B, 13B 체크포인트 출시.
- [10/30] FERRET 모델과 Ferret-Bench 코드 출시.
- 데이터와 코드는 연구 목적으로만 사용되며, LLaMA, Vicuna, GPT-4의 라이선스 협약을 따름.
- 데이터셋은 CC BY NC 4.0(비상업적 사용만 허용)이며, 이 데이터셋을 사용하여 훈련된 모델은 연구 목적 외에는 사용할 수 없음.

### 설치 및 사용법
- FERRET 저장소를 복제하고 해당 폴더로 이동 후 필요한 패키지 설치.
- 추가 패키지 설치는 특정 훈련 사례에 필요함.

### 훈련
- FERRET은 8개의 A100 GPU(각각 80GB 메모리)에서 훈련됨.
- 적은 수의 GPU에서 훈련 시 `per_device_train_batch_size`를 줄이고 `gradient_accumulation_steps`를 증가시켜야 함.
- Vicuna 체크포인트와 LLaVA의 프로젝터 준비 필요.
- 훈련 스크립트 제공.

### 평가
- 자세한 내용은 문서 참조.

### 체크포인트
- 사전 훈련된 모델과 Vicuna 사이의 `delta` 추출.
- Vicuna의 가중치 다운로드 후, 준비된 가중치 오프셋 다운로드 및 적용.

### 데모
- FERRET 훈련 후, 로컬에서 체크포인트 사용하여 데모 실행.
- Gradio 웹 UI 사용.
- 컨트롤러, 그라디오 웹 서버, 모델 워커 순차적으로 실행.

### 인용
- Ferret을 유용하게 사용한다면, 다음 BibTeX로 인용.

### 감사의 말
- LLaVA: 기반 코드베이스.
- Vicuna: LLM 코드베이스.

---

##### GN⁺의 의견
- **혁신적인 기술**: Ferret 모델은 다양한 어휘를 사용하여 세밀한 참조 및 위치 지정을 가능하게 하는 혁신적인 기술을 제시함.
- **연구의 중요성**: 이 모델과 데이터셋은 인공지능 분야에서 참조 및 위치 지정 작업의 연구를 촉진할 수 있는 중요한 자원임.
- **다양한 응용 가능성**: 이 기술은 이미지 및 텍스트를 결합한 다양한 응용 프로그램에 활용될 수 있으며, 이는 인공지능의 시각적 이해와 상호작용을 한 단계 끌어올릴 수 있음.

## Comments


_No public comments on this page._