# Llama 3-V - GPT4-V와 동등한 성능을 100배 작은 모델과 500달러로 구현하기

> Clean Markdown view of GeekNews topic #15076. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=15076](https://news.hada.io/topic?id=15076)
- GeekNews Markdown: [https://news.hada.io/topic/15076.md](https://news.hada.io/topic/15076.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-05-29T15:33:19+09:00
- Updated: 2024-05-29T15:33:19+09:00
- Original source: [aksh-garg.medium.com](https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee)
- Points: 10
- Comments: 0

## Topic Body

- Llama3-V는 Llama3를 기반으로 한 최초의 멀티모달 모델  
- Llama3-V는 500달러 이하의 비용으로 훈련되었음  
- 벤치마크에서 Llava보다 10-20% 성능 향상을 보였고, 100배 큰 폐쇄형 모델과 비교해도 대부분의 지표에서 유사한 성능을 보임  
  
#### 모델 아키텍처  
- **SigLIP**: 이미지 임베딩 모델로, CLIP과 유사하지만 시그모이드 손실을 사용함.  
- **텍스트 임베딩 정렬**: SigLIP을 고정하고, 투영 모듈을 사용해 이미지 임베딩을 텍스트 임베딩과 정렬함.  
- **이미지 토큰 추가**: 이미지 임베딩을 텍스트 토큰 앞에 추가하여 Llama3에 입력함.  
  
#### 추론 최적화  
- **캐싱**: SigLIP 모델의 이미지 임베딩을 사전에 계산하여 GPU 활용도를 높이고, 훈련/추론 시간을 절약함.  
- **MPS/MLX 최적화**: SigLIP 모델을 MPS 최적화하여 초당 32개의 이미지를 처리함.  
  
#### 훈련 과정  
- **임베딩 사전 계산**: SigLIP을 사용해 이미지 임베딩을 사전 계산함.  
- **투영 레이어 학습**: 투영 레이어를 통해 이미지와 텍스트 임베딩을 멀티모달 임베딩 공간으로 정렬함.  
- **지도 학습**: 사전 훈련 후, 지도 학습을 통해 모델 성능을 향상시킴.  
  
#### 요약  
- Llama3 8B에 비전 인코더를 추가함.  
- Llava보다 10-20% 성능 향상.  
- GPT4v, Gemini Ultra, Claude Opus와 같은 100배 큰 모델과 유사한 성능.  
- 500달러 이하의 비용으로 효율적인 훈련 및 지도 학습 파이프라인 제공.  
  
### GN⁺의 의견  
- **흥미로운 점**: Llama3-V는 저비용으로 고성능 멀티모달 모델을 구현한 점이 흥미로움.  
- **비판적 시각**: 모델 크기와 비용을 줄이면서 성능을 유지하는 것이 얼마나 지속 가능할지 의문임.  
- **관련 기술**: 비슷한 기능을 제공하는 모델로는 CLIP과 DALL-E가 있음.  
- **도입 고려사항**: 새로운 기술 도입 시, 모델의 정확도와 비용 효율성을 고려해야 함.  
- **기술 선택의 득과 실**: 저비용으로 고성능을 얻을 수 있지만, 모델의 확장성과 유지보수 비용도 고려해야 함.

## Comments


_No public comments on this page._