- 대규모 언어 모델(Large Language Models, LLMs) 배포의 어려움에 대한 기사: 크기와 연산 요구 사항으로 인해 많은 연구팀, 특히 낮은 대기 시간 성능이 필요한 응용 프로그램에게 접근이 어려움
- 이러한 도전을 극복하기 위해, 세부 조정이나 증류를 사용하여 훈련된 작은 전문 모델이 종종 배포됨. 그러나 이러한 방법들은 인간이 생성한 라벨이나 대량의 라벨이 없는 데이터가 필요한 등 자체적인 제한이 있음
- 저자들은 "단계별 증류"라는 새로운 메커니즘을 소개하며, 이를 통해 표준 세부 조정이나 증류 접근법에 필요한 것보다 훨씬 적은 훈련 데이터로 작은 과제별 모델을 훈련시킬 수 있음
- 이 메커니즘은 벤치마크 데이터셋의 예제 80%만을 사용하여 770M 파라미터 T5 모델이 몇 번의 샷으로 프롬프트된 540B PaLM 모델을 능가하게 하며, 표준 접근법에 필요한 것보다 훈련 데이터가 훨씬 적은 700배 이상의 모델 크기 축소를 보여줌
- 단계별 증류의 핵심 아이디어는 LLMs에서 정보가 많은 자연어 이유를 추출하고, 이를 사용하여 작은 모델을 더 효율적으로 훈련시키는 것
- 이 과정은 두 가지 주요 단계로 구성: 첫째, 몇 번의 샷으로 CoT 프롬프트를 사용하여 LLMs에서 이유를 추출하고, 둘째, 훈련 과정을 다중 과제 문제로 구성하여 이유를 작은 모델 훈련에 포함시킴
- 저자들은 세 가지 다른 NLP 작업에 걸친 네 가지 벤치마크 데이터셋에서 실험을 진행하였고, 단계별 증류 방법이 표준 세부 조정에 비해 훈련 데이터가 훨씬 적게 사용하여 더 나은 성능을 달성함을 발견함
- 단계별 증류 메커니즘은 Google Cloud Platform인 Vertex AI에서 비공개 미리보기로 사용 가능
- 이 연구는 Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee, 그리고 Tomas Pfister에 의해 수행되었음.