- 본문은 대형 언어 모델(Large Language Models, LLMs)의 미세조정 과정에서 관찰된 특이한 학습 패턴에 대해 논의하고 있으며, 이 모델은 단일 예제로부터 효과적으로 학습하는 것으로 보인다.
- 이러한 관찰 결과는 신경망의 샘플 효율성에 대한 일반적인 이해와는 상반되는데, 이는 효과적인 학습을 위해 일반적으로 여러 예제가 필요하다는 것을 의미한다.
- 저자들은 이 현상을 검증하기 위해 일련의 실험을 수행하였고, 이는 LLMs가 빠르게 입력을 기억할 수 있다는 가설을 지지한다.
- 신경망의 학습 과정은 입력과 출력의 예를 보여주고, 그들이 입력에 기반하여 출력을 예측하도록 학습하는 것을 포함한다. 이 과정은 모델이 효과적으로 학습하도록 여러 번 (에폭) 반복된다.
- 저자들은 Kaggle 경쟁을 위해 모델을 훈련시키면서 각 에폭의 끝에서 손실의 급격한 감소를 관찰하였는데, 이는 이례적이며 처음에는 버그로 의심되었다.
- 저자들과 커뮤니티의 다른 개발자들은 다른 훈련 루프와 방법을 사용하면서도 비슷한 패턴을 발견하였는데, 이는 버그가 아니라 LLM 미세조정의 특성임을 제안한다.
- 가설은 이러한 훈련 곡선이 과적합을 보여주고 있음을 의미하며, 이는 모델이 하나 또는 두 개의 예제에서만 입력을 인식하도록 학습하고 있음을 시사한다.
- 저자들은 다른 학습률 일정을 사용하여 실험을 수행하고, 모델이 예제를 한 번만 보고도 빠르게 인식하도록 학습하는 것을 관찰하였다.
- 저자들은 사전 훈련된 대형 언어 모델이 최소 손실에 가까운 영역에서 매우 부드러운 손실 표면을 가질 수 있으며, 이는 그들이 단일 예제로부터 빠르게 학습할 수 있게 한다고 제안한다.
- 이러한 빠른 학습은 전통적인 훈련 방법에 도전할 수 있으며, 새로운 정보가 도입될 때 모델이 이전에 학습한 정보를 잊어버리는 재앙적인 잊어버림 문제를 악화시킬 수 있다.
- 저자들은 드롭아웃이나 확률적 깊이와 같은 기술의 사용을 늘리거나, 훈련 과정에서 다양한 데이터셋의 혼합을 사용하는 등의 가능한 완화 전략을 제안한다.
- 저자들은 이 현상과 LLMs의 훈련 및 사용에 대한 그것의 영향을 더 잘 이해하기 위해 추가 연구와 대안 가설을 제안한다.