Chameleon: Meta의 새로운 멀티-모달 LLM

▲

GN⁺ 2024-05-23 | parent | ★ favorite | on: Chameleon: Meta의 새로운 멀티-모달 LLM(arxiv.org)

Hacker News 의견

해커뉴스 댓글 모음 요약

기본 연구와 소프트맥스 문제
- 기본 연구가 매우 흥미로움. 특히 소프트맥스를 다양한 토크나이제이션 공간에서 사용하는 어려움에 대한 분석이 인상적임.
- 34b 크기 모델에서 문제가 가장 두드러짐. 대규모 모델 훈련이 새로운 문제를 야기함을 상기시켜줌.
멀티모달리티와 Mirasol3B
- Mirasol3B와 비교했을 때 오디오를 지원하지 않음. 구글의 Mirasol3B는 오디오를 이미지로 변환하여 데모를 가능하게 했음.
- Meta도 멀티모달리티 방향으로 나아가고 있음. 새로운 GPT 음성 모드도 같은 아키텍처를 사용할 가능성이 높음.
- 새로운 모달리티가 추가되면 동일한 파라미터 크기에서 모델 성능이 향상됨.
훈련 시간과 비용
- 훈련 시간이 4282407시간으로, 200W GPU를 사용했을 때 약 1 GWh의 전력 소모. 비용은 약 $100,000.
- 단일 GPU로는 500년의 훈련 시간과 $100,000의 에너지 비용이 필요함. 실제로는 3000개의 GPU로 2개월 동안 훈련 가능.
Chameleon 모델의 성능
- Chameleon 모델이 Gemini Pro와 GPT-4V 같은 더 큰 모델의 성능을 맞추거나 초과함. 혼합 모달 생성 평가에서 우수한 성능을 보임.
- 멀티모달 문서의 통합 모델링에서 중요한 진전을 이룸.
기술 발전 속도
- 기술 발전이 매우 빠름. 흥미로운 점이 많고 이해하기 쉬움.
- 그러나 피로감을 느낄 수 있으며, 많은 돈이 투입되어 대부분이 사기처럼 느껴질 수 있음. 한 주제를 깊이 파고들고 관련 논문을 읽는 것이 좋음.
멀티모달 모델의 채택
- 최근 멀티모달 모델이 널리 채택되었으나 여전히 모달리티별로 별도의 인코더나 디코더를 사용함.
- 예를 들어, Gemini Pro는 이미지 토큰을 사용하고 GPT-4V도 비슷함. 두 개의 다른 토크나이저를 사전 훈련함.
통합 모델과 모달 경쟁
- 통합 모델이 흥미롭지만 "모달 경쟁"의 발견은 단기적으로 각 모달리티에 특화된 모델을 훈련하는 것이 더 나을 수 있음을 시사함.
Meta의 오픈 소스 계획
- Meta가 이 모델들을 오픈 소스로 공개할 계획이 있는지 궁금함.
- 모델이 다운로드 가능한지 여부에 대한 질문.