3P by neo 8달전 | favorite | 댓글 1개
  • 대규모 언어 모델(Large Language Models, LLMs) 배포의 어려움에 대한 기사: 크기와 연산 요구 사항으로 인해 많은 연구팀, 특히 낮은 대기 시간 성능이 필요한 응용 프로그램에게 접근이 어려움
  • 이러한 도전을 극복하기 위해, 세부 조정이나 증류를 사용하여 훈련된 작은 전문 모델이 종종 배포됨. 그러나 이러한 방법들은 인간이 생성한 라벨이나 대량의 라벨이 없는 데이터가 필요한 등 자체적인 제한이 있음
  • 저자들은 "단계별 증류"라는 새로운 메커니즘을 소개하며, 이를 통해 표준 세부 조정이나 증류 접근법에 필요한 것보다 훨씬 적은 훈련 데이터로 작은 과제별 모델을 훈련시킬 수 있음
  • 이 메커니즘은 벤치마크 데이터셋의 예제 80%만을 사용하여 770M 파라미터 T5 모델이 몇 번의 샷으로 프롬프트된 540B PaLM 모델을 능가하게 하며, 표준 접근법에 필요한 것보다 훈련 데이터가 훨씬 적은 700배 이상의 모델 크기 축소를 보여줌
  • 단계별 증류의 핵심 아이디어는 LLMs에서 정보가 많은 자연어 이유를 추출하고, 이를 사용하여 작은 모델을 더 효율적으로 훈련시키는 것
  • 이 과정은 두 가지 주요 단계로 구성: 첫째, 몇 번의 샷으로 CoT 프롬프트를 사용하여 LLMs에서 이유를 추출하고, 둘째, 훈련 과정을 다중 과제 문제로 구성하여 이유를 작은 모델 훈련에 포함시킴
  • 저자들은 세 가지 다른 NLP 작업에 걸친 네 가지 벤치마크 데이터셋에서 실험을 진행하였고, 단계별 증류 방법이 표준 세부 조정에 비해 훈련 데이터가 훨씬 적게 사용하여 더 나은 성능을 달성함을 발견함
  • 단계별 증류 메커니즘은 Google Cloud Platform인 Vertex AI에서 비공개 미리보기로 사용 가능
  • 이 연구는 Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee, 그리고 Tomas Pfister에 의해 수행되었음.
Hacker News 의견
  • 크기와 사용성의 최적 균형 때문에 더 작은 전문가 모델이 대부분의 응용 프로그램을 지배할 것으로 예상됩니다.
  • T5를 사용한 디스틸 모델은 인코더-디코더 아키텍처가 여전히 관련성이 있을 수 있음을 제안합니다.
  • 접근 방식이 과도하게 복잡하지 않아, Large Language Models (LLMs) 분야에서 아직 탐색해야 할 것이 많음을 시사합니다.
  • LLMs의 미래는 이런 스타일로 훈련된 전문가 모델의 혼합을 포함할 수 있습니다.
  • LLM, Machine Learning (ML), Artificial Intelligence (AI) 분야에서의 활동과 진보 수준이 인상적입니다.
  • Nvidia와 같은 하드웨어가 비싼 경우 이러한 최적화는 가치가 있습니다.
  • 가장 효과적인 모델은 멀티모달이며, 신중하게 맞춤화된 핵심 교육 과정으로 훈련될 가능성이 높습니다.
  • LLM의 훈련 데이터가 디스틸 및 과제별 모델보다 적은 이유에 대한 질문이 있습니다.
  • Reinforcement Learning from Human Feedback (RLHF)가 최첨단 LLM만큼 잘 수행하기 위해 더 작은 모델에 필요할지에 대한 추측이 있습니다.
  • 큰 LLM에서 많은 용량이 사용되지 않는지, 아니면 작은 언어 모델이 단순히 추론 작업을 모방하는지 여부는 불분명합니다.
  • 최대 144GB의 사용 가능한 GPU 메모리를 지원하는 Mac Studio는 LLM 서비스 공간에서 사용될 수 있습니다.
  • Facebook이 사용자의 모든 채팅 기록에 LLM을 훈련시킬 수 있을지에 대한 제안이 있습니다.