Hacker News 의견

해커뉴스 댓글 모음 요약

  • 기본 연구와 소프트맥스 문제

    • 기본 연구가 매우 흥미로움. 특히 소프트맥스를 다양한 토크나이제이션 공간에서 사용하는 어려움에 대한 분석이 인상적임.
    • 34b 크기 모델에서 문제가 가장 두드러짐. 대규모 모델 훈련이 새로운 문제를 야기함을 상기시켜줌.
  • 멀티모달리티와 Mirasol3B

    • Mirasol3B와 비교했을 때 오디오를 지원하지 않음. 구글의 Mirasol3B는 오디오를 이미지로 변환하여 데모를 가능하게 했음.
    • Meta도 멀티모달리티 방향으로 나아가고 있음. 새로운 GPT 음성 모드도 같은 아키텍처를 사용할 가능성이 높음.
    • 새로운 모달리티가 추가되면 동일한 파라미터 크기에서 모델 성능이 향상됨.
  • 훈련 시간과 비용

    • 훈련 시간이 4282407시간으로, 200W GPU를 사용했을 때 약 1 GWh의 전력 소모. 비용은 약 $100,000.
    • 단일 GPU로는 500년의 훈련 시간과 $100,000의 에너지 비용이 필요함. 실제로는 3000개의 GPU로 2개월 동안 훈련 가능.
  • Chameleon 모델의 성능

    • Chameleon 모델이 Gemini Pro와 GPT-4V 같은 더 큰 모델의 성능을 맞추거나 초과함. 혼합 모달 생성 평가에서 우수한 성능을 보임.
    • 멀티모달 문서의 통합 모델링에서 중요한 진전을 이룸.
  • 기술 발전 속도

    • 기술 발전이 매우 빠름. 흥미로운 점이 많고 이해하기 쉬움.
    • 그러나 피로감을 느낄 수 있으며, 많은 돈이 투입되어 대부분이 사기처럼 느껴질 수 있음. 한 주제를 깊이 파고들고 관련 논문을 읽는 것이 좋음.
  • 멀티모달 모델의 채택

    • 최근 멀티모달 모델이 널리 채택되었으나 여전히 모달리티별로 별도의 인코더나 디코더를 사용함.
    • 예를 들어, Gemini Pro는 이미지 토큰을 사용하고 GPT-4V도 비슷함. 두 개의 다른 토크나이저를 사전 훈련함.
  • 통합 모델과 모달 경쟁

    • 통합 모델이 흥미롭지만 "모달 경쟁"의 발견은 단기적으로 각 모달리티에 특화된 모델을 훈련하는 것이 더 나을 수 있음을 시사함.
  • Meta의 오픈 소스 계획

    • Meta가 이 모델들을 오픈 소스로 공개할 계획이 있는지 궁금함.
    • 모델이 다운로드 가능한지 여부에 대한 질문.