3P by neo 2달전 | favorite | 댓글 1개
  • ICML 2024에 발표된 "MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases" 논문에서 소개된 MobileLLM의 훈련 코드를 포함
  • 이 연구에서는 10억 개 미만의 파라미터를 가진 고품질 LLM을 얻기 위해 여러 설계 요소를 종합적으로 고려함
  • MobileLLM은 (1) SwiGLU 활성화 함수, (2) 깊고 얇은 아키텍처, (3) 임베딩 공유, (4) 그룹화된 쿼리 주의를 통합하여 구축됨
  • MobileLLM-125M/350M은 이전의 125M/350M SoTA 모델에 비해 제로샷 상식 추론 작업에서 각각 2.7%/4.3%의 정확도 향상을 달성함
  • 업데이트된 버전에서는 MobileLLM-600M/1B/1.5B 모델이 더 큰 모델로 확장되어 SoTA 결과를 보여줌

GN⁺의 정리

  • MobileLLM은 10억 개 미만의 파라미터를 가진 고품질 언어 모델을 위한 최적화된 설계 철학을 제시함
  • SwiGLU 활성화 함수, 깊고 얇은 아키텍처, 임베딩 공유, 그룹화된 쿼리 주의 등의 요소를 통합하여 성능을 향상시킴
  • 제로샷 상식 추론 작업에서 기존 모델 대비 높은 정확도를 달성함
  • 이 연구는 모바일 및 임베디드 장치에서의 언어 모델 사용 사례에 중요한 기여를 함
  • 유사한 기능을 가진 프로젝트로는 GPT-neo, OPT, BLOOM 등이 있음
Hacker News 의견
  • MobileLLM-125M/350M 모델이 이전 125M/350M SoTA 모델보다 2.7%/4.3% 정확도 향상음을 보임

    • 작은 모델들이 약간 개선되었지만, 온라인 모델과 같은 용도로는 아직 충분하지 않음
    • 점진적인 발전에는 문제가 없음을 언급함
  • 1.5B 파라미터 모델이 상당히 큰 발전을 이루었음을 언급함

    • 더 큰 모델을 사용하지 않은 이유를 궁금해함
    • RPi 크기의 하드웨어에 맞는 효율적인 모델이 게임 체인저가 될 수 있음을 언급함
    • TinyLlama 7B 모델이 간신히 실행됨을 언급함
  • Apple Watch가 작은 모델의 추론을 실행할 하드웨어 능력이 있는지 궁금해함

    • 개발자 계정이 필요한지 질문함
  • 모바일 장치에만 머물러야 하는지 질문함

    • 자원이 많이 소모되지 않는다면 게임의 NPC 대화를 더 흥미롭게 만들 수 있을 것임을 언급함
    • NPC 행동이나 행동에 영향을 줄 수 있도록 조정할 수 있다면 더 좋을 것임을 언급함
  • 현재 장치 내에서 wake-word와 같은 STT가 필요함을 언급함

    • RPi 4B에서 실행할 수 있는 모델 중 가장 낮은 WER을 가진 모델을 찾고 있음
    • openWakeWord를 살펴보고 있음
    • DIY 인벤토리 시스템을 위해 필요함을 언급함
  • iPhone에서 실행할 수 있는 앱을 찾고 있음

    • 현재 MLC 앱만 알고 있으며, 3개의 오래된 모델만 있음
  • "더 깊고 얇은" 부분을 얼마나 밀어붙일 수 있는지 궁금해함

    • FFN이 L2 캐시에 맞으면 성능이 향상될 것임을 언급함
  • 증류와 같은 방법이 도움이 될 수 있는지 질문함

  • 작은 모델들이 선형 헤드와 토큰 임베딩 사이의 공유/가중치 묶음을 통해 가장 큰 크기 감소를 얻는 것 같음을 언급함

    • 그 이후로 크기를 더 줄이는 방법에 대한 연구가 있는지 궁금해함
  • 이 모델을 사용하여 Windows PC에서도 모델을 훈련시킬 수 있는지 질문함

    • 많은 RAM이 없음을 언급함
  • 흥미롭지만, 더 나은 자동 완성 외에 어떤 사용 사례가 있는지 궁금해함