▲GN⁺ 2024-05-23 | parent | ★ favorite | on: Chameleon: Meta의 새로운 멀티-모달 LLM(arxiv.org)Hacker News 의견 해커뉴스 댓글 모음 요약 기본 연구와 소프트맥스 문제 기본 연구가 매우 흥미로움. 특히 소프트맥스를 다양한 토크나이제이션 공간에서 사용하는 어려움에 대한 분석이 인상적임. 34b 크기 모델에서 문제가 가장 두드러짐. 대규모 모델 훈련이 새로운 문제를 야기함을 상기시켜줌. 멀티모달리티와 Mirasol3B Mirasol3B와 비교했을 때 오디오를 지원하지 않음. 구글의 Mirasol3B는 오디오를 이미지로 변환하여 데모를 가능하게 했음. Meta도 멀티모달리티 방향으로 나아가고 있음. 새로운 GPT 음성 모드도 같은 아키텍처를 사용할 가능성이 높음. 새로운 모달리티가 추가되면 동일한 파라미터 크기에서 모델 성능이 향상됨. 훈련 시간과 비용 훈련 시간이 4282407시간으로, 200W GPU를 사용했을 때 약 1 GWh의 전력 소모. 비용은 약 $100,000. 단일 GPU로는 500년의 훈련 시간과 $100,000의 에너지 비용이 필요함. 실제로는 3000개의 GPU로 2개월 동안 훈련 가능. Chameleon 모델의 성능 Chameleon 모델이 Gemini Pro와 GPT-4V 같은 더 큰 모델의 성능을 맞추거나 초과함. 혼합 모달 생성 평가에서 우수한 성능을 보임. 멀티모달 문서의 통합 모델링에서 중요한 진전을 이룸. 기술 발전 속도 기술 발전이 매우 빠름. 흥미로운 점이 많고 이해하기 쉬움. 그러나 피로감을 느낄 수 있으며, 많은 돈이 투입되어 대부분이 사기처럼 느껴질 수 있음. 한 주제를 깊이 파고들고 관련 논문을 읽는 것이 좋음. 멀티모달 모델의 채택 최근 멀티모달 모델이 널리 채택되었으나 여전히 모달리티별로 별도의 인코더나 디코더를 사용함. 예를 들어, Gemini Pro는 이미지 토큰을 사용하고 GPT-4V도 비슷함. 두 개의 다른 토크나이저를 사전 훈련함. 통합 모델과 모달 경쟁 통합 모델이 흥미롭지만 "모달 경쟁"의 발견은 단기적으로 각 모달리티에 특화된 모델을 훈련하는 것이 더 나을 수 있음을 시사함. Meta의 오픈 소스 계획 Meta가 이 모델들을 오픈 소스로 공개할 계획이 있는지 궁금함. 모델이 다운로드 가능한지 여부에 대한 질문.
Hacker News 의견
해커뉴스 댓글 모음 요약
기본 연구와 소프트맥스 문제
멀티모달리티와 Mirasol3B
훈련 시간과 비용
Chameleon 모델의 성능
기술 발전 속도
멀티모달 모델의 채택
통합 모델과 모달 경쟁
Meta의 오픈 소스 계획