더 적은 학습 데이터와 작은 모델로 더 큰 언어 모델을 능가하는 기술

(blog.research.google)

3P by GN⁺ 2023-09-24 | ★ favorite | 댓글 1개

대규모 언어 모델(Large Language Models, LLMs) 배포의 어려움에 대한 기사: 크기와 연산 요구 사항으로 인해 많은 연구팀, 특히 낮은 대기 시간 성능이 필요한 응용 프로그램에게 접근이 어려움
이러한 도전을 극복하기 위해, 세부 조정이나 증류를 사용하여 훈련된 작은 전문 모델이 종종 배포됨. 그러나 이러한 방법들은 인간이 생성한 라벨이나 대량의 라벨이 없는 데이터가 필요한 등 자체적인 제한이 있음
저자들은 "단계별 증류"라는 새로운 메커니즘을 소개하며, 이를 통해 표준 세부 조정이나 증류 접근법에 필요한 것보다 훨씬 적은 훈련 데이터로 작은 과제별 모델을 훈련시킬 수 있음
이 메커니즘은 벤치마크 데이터셋의 예제 80%만을 사용하여 770M 파라미터 T5 모델이 몇 번의 샷으로 프롬프트된 540B PaLM 모델을 능가하게 하며, 표준 접근법에 필요한 것보다 훈련 데이터가 훨씬 적은 700배 이상의 모델 크기 축소를 보여줌
단계별 증류의 핵심 아이디어는 LLMs에서 정보가 많은 자연어 이유를 추출하고, 이를 사용하여 작은 모델을 더 효율적으로 훈련시키는 것
이 과정은 두 가지 주요 단계로 구성: 첫째, 몇 번의 샷으로 CoT 프롬프트를 사용하여 LLMs에서 이유를 추출하고, 둘째, 훈련 과정을 다중 과제 문제로 구성하여 이유를 작은 모델 훈련에 포함시킴
저자들은 세 가지 다른 NLP 작업에 걸친 네 가지 벤치마크 데이터셋에서 실험을 진행하였고, 단계별 증류 방법이 표준 세부 조정에 비해 훈련 데이터가 훨씬 적게 사용하여 더 나은 성능을 달성함을 발견함
단계별 증류 메커니즘은 Google Cloud Platform인 Vertex AI에서 비공개 미리보기로 사용 가능
이 연구는 Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee, 그리고 Tomas Pfister에 의해 수행되었음.

▲

GN⁺ 2023-09-24 [-]

Hacker News 의견

크기와 사용성의 최적 균형 때문에 더 작은 전문가 모델이 대부분의 응용 프로그램을 지배할 것으로 예상됩니다.
T5를 사용한 디스틸 모델은 인코더-디코더 아키텍처가 여전히 관련성이 있을 수 있음을 제안합니다.
접근 방식이 과도하게 복잡하지 않아, Large Language Models (LLMs) 분야에서 아직 탐색해야 할 것이 많음을 시사합니다.
LLMs의 미래는 이런 스타일로 훈련된 전문가 모델의 혼합을 포함할 수 있습니다.
LLM, Machine Learning (ML), Artificial Intelligence (AI) 분야에서의 활동과 진보 수준이 인상적입니다.
Nvidia와 같은 하드웨어가 비싼 경우 이러한 최적화는 가치가 있습니다.
가장 효과적인 모델은 멀티모달이며, 신중하게 맞춤화된 핵심 교육 과정으로 훈련될 가능성이 높습니다.
LLM의 훈련 데이터가 디스틸 및 과제별 모델보다 적은 이유에 대한 질문이 있습니다.
Reinforcement Learning from Human Feedback (RLHF)가 최첨단 LLM만큼 잘 수행하기 위해 더 작은 모델에 필요할지에 대한 추측이 있습니다.
큰 LLM에서 많은 용량이 사용되지 않는지, 아니면 작은 언어 모델이 단순히 추론 작업을 모방하는지 여부는 불분명합니다.
최대 144GB의 사용 가능한 GPU 메모리를 지원하는 Mac Studio는 LLM 서비스 공간에서 사용될 수 있습니다.
Facebook이 사용자의 모든 채팅 기록에 LLM을 훈련시킬 수 있을지에 대한 제안이 있습니다.

답변달기