GN⁺: Chameleon: Meta의 새로운 멀티-모달 LLM
(arxiv.org)- Chameleon은 이미지와 텍스트를 임의의 순서로 이해하고 생성할 수 있는 초기 융합 토큰 기반 혼합 모달 모델군임
- 이 모델군은 안정적인 학습 접근 방식, 정렬 레시피, 초기 융합 토큰 기반 혼합 모달 설정을 위한 건축 매개변수를 포함하고 있음
- 초기부터 안정적인 학습 접근 방식취했으며, 정렬 레시피와 건축 매개변수가 초기 융합 토큰 기반 혼합 모달 설정에 맞게 설계됨
- 시각적 질문 응답, 이미지 캡션 생성, 텍스트 생성, 이미지 생성, 장문 혼합 모달 생성 등의 포괄적인 과제들에서 평가하였음
- 이미지 캡션 생성 작업에서 최첨단 성능을 보여줌
- 텍스트 전용 작업에서는 Llama-2를 능가하고 Mixtral 8x7B와 Gemini-Pro와 같은 모델과 경쟁력 있는 성능을 보임
- 훌륭한 이미지 생성 능력을 지니고 있으며, 단일 모델로 다양한 작업을 수행할 수 있음
- 긴 형식의 혼합 모달 생성 평가에서, 프롬프트나 출력이 이미지와 텍스트의 혼합 시퀀스를 포함할 때, Gemini Pro와 GPT-4V와 같은 훨씬 더 큰 모델의 성능을 일치시키거나 능가
- Chameleon은 완전한 멀티모달 문서의 통합 모델링에서 중요한 진전을 이루었음
- 이는 다양한 과제에서 포괄적인 능력을 갖춘 통합된 멀티모달 모델의 새로운 기준을 제시함
GN⁺의 의견
- 멀티모달 모델은 다양한 입력 형태를 동시에 처리할 수 있어, 실제 응용에서 매우 유용함. 예를 들어, 시각적 질문 응답 시스템이나 이미지 캡션 생성 등에서 큰 이점을 제공함.
- 카멜레온은 Llama-2, Mixtral 8x7B, Gemini-Pro 등과 비교하여 경쟁력 있는 성능을 보임. 이는 다양한 작업에서의 유연성과 성능을 입증함.
- 새로운 기술을 도입할 때는 모델의 안정성, 훈련 비용, 데이터 요구사항 등을 고려해야 함. 카멜레온의 경우, 초기 융합 접근법이 안정적이지만, 실제 적용 시 충분한 데이터와 컴퓨팅 자원이 필요할 수 있음.
- 장기 혼합 모달 생성에서의 성능은 매우 흥미로움. 이는 복잡한 문서 생성이나 멀티미디어 콘텐츠 제작에 큰 가능성을 열어줌.
- 업계에는 OpenAI의 GPT-4, Google's BERT 등 다양한 멀티모달 모델이 존재함. 각 모델의 특성과 장단점을 비교하여 적절한 모델을 선택하는 것이 중요함.
모델 체크포인트: https://ai.meta.com/resources/models-and-libraries/…
블로그: https://ai.meta.com/blog/meta-fair-research-new-releases/
Github 리포지토리: https://github.com/facebookresearch/chameleon
8시간전에 공개!
Hacker News 의견
해커뉴스 댓글 모음 요약
-
기본 연구와 소프트맥스 문제
- 기본 연구가 매우 흥미로움. 특히 소프트맥스를 다양한 토크나이제이션 공간에서 사용하는 어려움에 대한 분석이 인상적임.
- 34b 크기 모델에서 문제가 가장 두드러짐. 대규모 모델 훈련이 새로운 문제를 야기함을 상기시켜줌.
-
멀티모달리티와 Mirasol3B
- Mirasol3B와 비교했을 때 오디오를 지원하지 않음. 구글의 Mirasol3B는 오디오를 이미지로 변환하여 데모를 가능하게 했음.
- Meta도 멀티모달리티 방향으로 나아가고 있음. 새로운 GPT 음성 모드도 같은 아키텍처를 사용할 가능성이 높음.
- 새로운 모달리티가 추가되면 동일한 파라미터 크기에서 모델 성능이 향상됨.
-
훈련 시간과 비용
- 훈련 시간이 4282407시간으로, 200W GPU를 사용했을 때 약 1 GWh의 전력 소모. 비용은 약 $100,000.
- 단일 GPU로는 500년의 훈련 시간과 $100,000의 에너지 비용이 필요함. 실제로는 3000개의 GPU로 2개월 동안 훈련 가능.
-
Chameleon 모델의 성능
- Chameleon 모델이 Gemini Pro와 GPT-4V 같은 더 큰 모델의 성능을 맞추거나 초과함. 혼합 모달 생성 평가에서 우수한 성능을 보임.
- 멀티모달 문서의 통합 모델링에서 중요한 진전을 이룸.
-
기술 발전 속도
- 기술 발전이 매우 빠름. 흥미로운 점이 많고 이해하기 쉬움.
- 그러나 피로감을 느낄 수 있으며, 많은 돈이 투입되어 대부분이 사기처럼 느껴질 수 있음. 한 주제를 깊이 파고들고 관련 논문을 읽는 것이 좋음.
-
멀티모달 모델의 채택
- 최근 멀티모달 모델이 널리 채택되었으나 여전히 모달리티별로 별도의 인코더나 디코더를 사용함.
- 예를 들어, Gemini Pro는 이미지 토큰을 사용하고 GPT-4V도 비슷함. 두 개의 다른 토크나이저를 사전 훈련함.
-
통합 모델과 모달 경쟁
- 통합 모델이 흥미롭지만 "모달 경쟁"의 발견은 단기적으로 각 모달리티에 특화된 모델을 훈련하는 것이 더 나을 수 있음을 시사함.
-
Meta의 오픈 소스 계획
- Meta가 이 모델들을 오픈 소스로 공개할 계획이 있는지 궁금함.
- 모델이 다운로드 가능한지 여부에 대한 질문.