- Llama3-V는 Llama3를 기반으로 한 최초의 멀티모달 모델
- Llama3-V는 500달러 이하의 비용으로 훈련되었음
- 벤치마크에서 Llava보다 10-20% 성능 향상을 보였고, 100배 큰 폐쇄형 모델과 비교해도 대부분의 지표에서 유사한 성능을 보임
모델 아키텍처
-
SigLIP: 이미지 임베딩 모델로, CLIP과 유사하지만 시그모이드 손실을 사용함.
-
텍스트 임베딩 정렬: SigLIP을 고정하고, 투영 모듈을 사용해 이미지 임베딩을 텍스트 임베딩과 정렬함.
-
이미지 토큰 추가: 이미지 임베딩을 텍스트 토큰 앞에 추가하여 Llama3에 입력함.
추론 최적화
-
캐싱: SigLIP 모델의 이미지 임베딩을 사전에 계산하여 GPU 활용도를 높이고, 훈련/추론 시간을 절약함.
-
MPS/MLX 최적화: SigLIP 모델을 MPS 최적화하여 초당 32개의 이미지를 처리함.
훈련 과정
-
임베딩 사전 계산: SigLIP을 사용해 이미지 임베딩을 사전 계산함.
-
투영 레이어 학습: 투영 레이어를 통해 이미지와 텍스트 임베딩을 멀티모달 임베딩 공간으로 정렬함.
-
지도 학습: 사전 훈련 후, 지도 학습을 통해 모델 성능을 향상시킴.
요약
- Llama3 8B에 비전 인코더를 추가함.
- Llava보다 10-20% 성능 향상.
- GPT4v, Gemini Ultra, Claude Opus와 같은 100배 큰 모델과 유사한 성능.
- 500달러 이하의 비용으로 효율적인 훈련 및 지도 학습 파이프라인 제공.
GN⁺의 의견
-
흥미로운 점: Llama3-V는 저비용으로 고성능 멀티모달 모델을 구현한 점이 흥미로움.
-
비판적 시각: 모델 크기와 비용을 줄이면서 성능을 유지하는 것이 얼마나 지속 가능할지 의문임.
-
관련 기술: 비슷한 기능을 제공하는 모델로는 CLIP과 DALL-E가 있음.
-
도입 고려사항: 새로운 기술 도입 시, 모델의 정확도와 비용 효율성을 고려해야 함.
-
기술 선택의 득과 실: 저비용으로 고성능을 얻을 수 있지만, 모델의 확장성과 유지보수 비용도 고려해야 함.