- "Less Is More for Alignment"
- 강화학습 이나 선호도 모델링 없이 잘 큐레이트된 1000개의 프롬프트만으로 파인튜닝한 LLaMA 모델
- 43% 사례에서 GPT-4와 동등하거나 더 선호, Bard와 비교했을 때 58%, 휴먼 피드백으로 훈련한 DaVinci003에 비해 65% 높음
- 논문의 가설은 LLM의 거의 모든 지식은 Pretraining중에 학습되는 것이며, Alignment는 사용자와 상호작용하는 포맷/스타일을 학습하는 간단한 프로세스 라는 것
- Meta AI 의 새로운 논문