# Chameleon: Meta의 새로운 멀티-모달 LLM

> Clean Markdown view of GeekNews topic #14954. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=14954](https://news.hada.io/topic?id=14954)
- GeekNews Markdown: [https://news.hada.io/topic/14954.md](https://news.hada.io/topic/14954.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2024-05-23T09:45:11+09:00
- Updated: 2024-05-23T09:45:11+09:00
- Original source: [arxiv.org](https://arxiv.org/abs/2405.09818)
- Points: 4
- Comments: 2

## Topic Body

- Chameleon은 이미지와 텍스트를 임의의 순서로 이해하고 생성할 수 있는 초기 융합 토큰 기반 혼합 모달 모델군임  
- 이 모델군은 안정적인 학습 접근 방식, 정렬 레시피, 초기 융합 토큰 기반 혼합 모달 설정을 위한 건축 매개변수를 포함하고 있음  
- 초기부터 안정적인 학습 접근 방식취했으며, 정렬 레시피와 건축 매개변수가 초기 융합 토큰 기반 혼합 모달 설정에 맞게 설계됨  
- 시각적 질문 응답, 이미지 캡션 생성, 텍스트 생성, 이미지 생성, 장문 혼합 모달 생성 등의 포괄적인 과제들에서 평가하였음   
  - 이미지 캡션 생성 작업에서 최첨단 성능을 보여줌  
  - 텍스트 전용 작업에서는 Llama-2를 능가하고 Mixtral 8x7B와 Gemini-Pro와 같은 모델과 경쟁력 있는 성능을 보임  
  - 훌륭한 이미지 생성 능력을 지니고 있으며, 단일 모델로 다양한 작업을 수행할 수 있음  
  - 긴 형식의 혼합 모달 생성 평가에서, 프롬프트나 출력이 이미지와 텍스트의 혼합 시퀀스를 포함할 때, Gemini Pro와 GPT-4V와 같은 훨씬 더 큰 모델의 성능을 일치시키거나 능가  
- Chameleon은 완전한 멀티모달 문서의 통합 모델링에서 중요한 진전을 이루었음  
- 이는 다양한 과제에서 포괄적인 능력을 갖춘 통합된 멀티모달 모델의 새로운 기준을 제시함  
  
### GN⁺의 의견  
- 멀티모달 모델은 다양한 입력 형태를 동시에 처리할 수 있어, 실제 응용에서 매우 유용함. 예를 들어, 시각적 질문 응답 시스템이나 이미지 캡션 생성 등에서 큰 이점을 제공함.  
- 카멜레온은 Llama-2, Mixtral 8x7B, Gemini-Pro 등과 비교하여 경쟁력 있는 성능을 보임. 이는 다양한 작업에서의 유연성과 성능을 입증함.  
- 새로운 기술을 도입할 때는 모델의 안정성, 훈련 비용, 데이터 요구사항 등을 고려해야 함. 카멜레온의 경우, 초기 융합 접근법이 안정적이지만, 실제 적용 시 충분한 데이터와 컴퓨팅 자원이 필요할 수 있음.  
- 장기 혼합 모달 생성에서의 성능은 매우 흥미로움. 이는 복잡한 문서 생성이나 멀티미디어 콘텐츠 제작에 큰 가능성을 열어줌.  
- 업계에는 OpenAI의 GPT-4, Google's BERT 등 다양한 멀티모달 모델이 존재함. 각 모델의 특성과 장단점을 비교하여 적절한 모델을 선택하는 것이 중요함.

## Comments


### Comment 26397

- Author: fastkoder
- Created: 2024-06-19T10:15:36+09:00
- Points: 1

모델 체크포인트: https://ai.meta.com/resources/models-and-libraries/chameleon-downloads/  
블로그: https://ai.meta.com/blog/meta-fair-research-new-releases/  
Github 리포지토리: https://github.com/facebookresearch/chameleon   
8시간전에 공개!

### Comment 25490

- Author: neo
- Created: 2024-05-23T09:45:11+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=40423082) 
##### 해커뉴스 댓글 모음 요약

* **기본 연구와 소프트맥스 문제**
  - 기본 연구가 매우 흥미로움. 특히 소프트맥스를 다양한 토크나이제이션 공간에서 사용하는 어려움에 대한 분석이 인상적임.
  - 34b 크기 모델에서 문제가 가장 두드러짐. 대규모 모델 훈련이 새로운 문제를 야기함을 상기시켜줌.

* **멀티모달리티와 Mirasol3B**
  - Mirasol3B와 비교했을 때 오디오를 지원하지 않음. 구글의 Mirasol3B는 오디오를 이미지로 변환하여 데모를 가능하게 했음.
  - Meta도 멀티모달리티 방향으로 나아가고 있음. 새로운 GPT 음성 모드도 같은 아키텍처를 사용할 가능성이 높음.
  - 새로운 모달리티가 추가되면 동일한 파라미터 크기에서 모델 성능이 향상됨.

* **훈련 시간과 비용**
  - 훈련 시간이 4282407시간으로, 200W GPU를 사용했을 때 약 1 GWh의 전력 소모. 비용은 약 $100,000.
  - 단일 GPU로는 500년의 훈련 시간과 $100,000의 에너지 비용이 필요함. 실제로는 3000개의 GPU로 2개월 동안 훈련 가능.

* **Chameleon 모델의 성능**
  - Chameleon 모델이 Gemini Pro와 GPT-4V 같은 더 큰 모델의 성능을 맞추거나 초과함. 혼합 모달 생성 평가에서 우수한 성능을 보임.
  - 멀티모달 문서의 통합 모델링에서 중요한 진전을 이룸.

* **기술 발전 속도**
  - 기술 발전이 매우 빠름. 흥미로운 점이 많고 이해하기 쉬움.
  - 그러나 피로감을 느낄 수 있으며, 많은 돈이 투입되어 대부분이 사기처럼 느껴질 수 있음. 한 주제를 깊이 파고들고 관련 논문을 읽는 것이 좋음.

* **멀티모달 모델의 채택**
  - 최근 멀티모달 모델이 널리 채택되었으나 여전히 모달리티별로 별도의 인코더나 디코더를 사용함.
  - 예를 들어, Gemini Pro는 이미지 토큰을 사용하고 GPT-4V도 비슷함. 두 개의 다른 토크나이저를 사전 훈련함.

* **통합 모델과 모달 경쟁**
  - 통합 모델이 흥미롭지만 "모달 경쟁"의 발견은 단기적으로 각 모달리티에 특화된 모델을 훈련하는 것이 더 나을 수 있음을 시사함.

* **Meta의 오픈 소스 계획**
  - Meta가 이 모델들을 오픈 소스로 공개할 계획이 있는지 궁금함.
  - 모델이 다운로드 가능한지 여부에 대한 질문.