Llama 3-V - GPT4-V와 동등한 성능을 100배 작은 모델과 500달러로 구현하기

(aksh-garg.medium.com)

10P by GN⁺ 2024-05-29 | ★ favorite | 댓글과 토론

Llama3-V는 Llama3를 기반으로 한 최초의 멀티모달 모델
Llama3-V는 500달러 이하의 비용으로 훈련되었음
벤치마크에서 Llava보다 10-20% 성능 향상을 보였고, 100배 큰 폐쇄형 모델과 비교해도 대부분의 지표에서 유사한 성능을 보임

모델 아키텍처

SigLIP: 이미지 임베딩 모델로, CLIP과 유사하지만 시그모이드 손실을 사용함.
텍스트 임베딩 정렬: SigLIP을 고정하고, 투영 모듈을 사용해 이미지 임베딩을 텍스트 임베딩과 정렬함.
이미지 토큰 추가: 이미지 임베딩을 텍스트 토큰 앞에 추가하여 Llama3에 입력함.

추론 최적화

캐싱: SigLIP 모델의 이미지 임베딩을 사전에 계산하여 GPU 활용도를 높이고, 훈련/추론 시간을 절약함.
MPS/MLX 최적화: SigLIP 모델을 MPS 최적화하여 초당 32개의 이미지를 처리함.

훈련 과정

임베딩 사전 계산: SigLIP을 사용해 이미지 임베딩을 사전 계산함.
투영 레이어 학습: 투영 레이어를 통해 이미지와 텍스트 임베딩을 멀티모달 임베딩 공간으로 정렬함.
지도 학습: 사전 훈련 후, 지도 학습을 통해 모델 성능을 향상시킴.

요약

Llama3 8B에 비전 인코더를 추가함.
Llava보다 10-20% 성능 향상.
GPT4v, Gemini Ultra, Claude Opus와 같은 100배 큰 모델과 유사한 성능.
500달러 이하의 비용으로 효율적인 훈련 및 지도 학습 파이프라인 제공.

GN⁺의 의견

흥미로운 점: Llama3-V는 저비용으로 고성능 멀티모달 모델을 구현한 점이 흥미로움.
비판적 시각: 모델 크기와 비용을 줄이면서 성능을 유지하는 것이 얼마나 지속 가능할지 의문임.
관련 기술: 비슷한 기능을 제공하는 모델로는 CLIP과 DALL-E가 있음.
도입 고려사항: 새로운 기술 도입 시, 모델의 정확도와 비용 효율성을 고려해야 함.
기술 선택의 득과 실: 저비용으로 고성능을 얻을 수 있지만, 모델의 확장성과 유지보수 비용도 고려해야 함.