MobileLLM: 기기 내 사용을 위한 서브-빌리언 파라미터 언어 모델 최적화

(github.com/facebookresearch)

3P by GN⁺ 2024-07-11 | ★ favorite | 댓글 1개

ICML 2024에 발표된 "MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases" 논문에서 소개된 MobileLLM의 훈련 코드를 포함
이 연구에서는 10억 개 미만의 파라미터를 가진 고품질 LLM을 얻기 위해 여러 설계 요소를 종합적으로 고려함
MobileLLM은 (1) SwiGLU 활성화 함수, (2) 깊고 얇은 아키텍처, (3) 임베딩 공유, (4) 그룹화된 쿼리 주의를 통합하여 구축됨
MobileLLM-125M/350M은 이전의 125M/350M SoTA 모델에 비해 제로샷 상식 추론 작업에서 각각 2.7%/4.3%의 정확도 향상을 달성함
업데이트된 버전에서는 MobileLLM-600M/1B/1.5B 모델이 더 큰 모델로 확장되어 SoTA 결과를 보여줌

GN⁺의 정리

MobileLLM은 10억 개 미만의 파라미터를 가진 고품질 언어 모델을 위한 최적화된 설계 철학을 제시함
SwiGLU 활성화 함수, 깊고 얇은 아키텍처, 임베딩 공유, 그룹화된 쿼리 주의 등의 요소를 통합하여 성능을 향상시킴
제로샷 상식 추론 작업에서 기존 모델 대비 높은 정확도를 달성함
이 연구는 모바일 및 임베디드 장치에서의 언어 모델 사용 사례에 중요한 기여를 함
유사한 기능을 가진 프로젝트로는 GPT-neo, OPT, BLOOM 등이 있음

▲

GN⁺ 2024-07-11 [-]

Hacker News 의견

MobileLLM-125M/350M 모델이 이전 125M/350M SoTA 모델보다 2.7%/4.3% 정확도 향상음을 보임
- 작은 모델들이 약간 개선되었지만, 온라인 모델과 같은 용도로는 아직 충분하지 않음
- 점진적인 발전에는 문제가 없음을 언급함
1.5B 파라미터 모델이 상당히 큰 발전을 이루었음을 언급함
- 더 큰 모델을 사용하지 않은 이유를 궁금해함
- RPi 크기의 하드웨어에 맞는 효율적인 모델이 게임 체인저가 될 수 있음을 언급함
- TinyLlama 7B 모델이 간신히 실행됨을 언급함
Apple Watch가 작은 모델의 추론을 실행할 하드웨어 능력이 있는지 궁금해함
- 개발자 계정이 필요한지 질문함
모바일 장치에만 머물러야 하는지 질문함
- 자원이 많이 소모되지 않는다면 게임의 NPC 대화를 더 흥미롭게 만들 수 있을 것임을 언급함
- NPC 행동이나 행동에 영향을 줄 수 있도록 조정할 수 있다면 더 좋을 것임을 언급함
현재 장치 내에서 wake-word와 같은 STT가 필요함을 언급함
- RPi 4B에서 실행할 수 있는 모델 중 가장 낮은 WER을 가진 모델을 찾고 있음
- openWakeWord를 살펴보고 있음
- DIY 인벤토리 시스템을 위해 필요함을 언급함
iPhone에서 실행할 수 있는 앱을 찾고 있음
- 현재 MLC 앱만 알고 있으며, 3개의 오래된 모델만 있음
"더 깊고 얇은" 부분을 얼마나 밀어붙일 수 있는지 궁금해함
- FFN이 L2 캐시에 맞으면 성능이 향상될 것임을 언급함
증류와 같은 방법이 도움이 될 수 있는지 질문함
작은 모델들이 선형 헤드와 토큰 임베딩 사이의 공유/가중치 묶음을 통해 가장 큰 크기 감소를 얻는 것 같음을 언급함
- 그 이후로 크기를 더 줄이는 방법에 대한 연구가 있는지 궁금해함
이 모델을 사용하여 Windows PC에서도 모델을 훈련시킬 수 있는지 질문함
- 많은 RAM이 없음을 언급함
흥미롭지만, 더 나은 자동 완성 외에 어떤 사용 사례가 있는지 궁금해함

답변달기