LLMs이 단일 예제로부터 배울 수 있을까?

(fast.ai)

2P by GN⁺ 2023-09-07 | ★ favorite | 댓글 1개

본문은 대형 언어 모델(Large Language Models, LLMs)의 미세조정 과정에서 관찰된 특이한 학습 패턴에 대해 논의하고 있으며, 이 모델은 단일 예제로부터 효과적으로 학습하는 것으로 보인다.
이러한 관찰 결과는 신경망의 샘플 효율성에 대한 일반적인 이해와는 상반되는데, 이는 효과적인 학습을 위해 일반적으로 여러 예제가 필요하다는 것을 의미한다.
저자들은 이 현상을 검증하기 위해 일련의 실험을 수행하였고, 이는 LLMs가 빠르게 입력을 기억할 수 있다는 가설을 지지한다.
신경망의 학습 과정은 입력과 출력의 예를 보여주고, 그들이 입력에 기반하여 출력을 예측하도록 학습하는 것을 포함한다. 이 과정은 모델이 효과적으로 학습하도록 여러 번 (에폭) 반복된다.
저자들은 Kaggle 경쟁을 위해 모델을 훈련시키면서 각 에폭의 끝에서 손실의 급격한 감소를 관찰하였는데, 이는 이례적이며 처음에는 버그로 의심되었다.
저자들과 커뮤니티의 다른 개발자들은 다른 훈련 루프와 방법을 사용하면서도 비슷한 패턴을 발견하였는데, 이는 버그가 아니라 LLM 미세조정의 특성임을 제안한다.
가설은 이러한 훈련 곡선이 과적합을 보여주고 있음을 의미하며, 이는 모델이 하나 또는 두 개의 예제에서만 입력을 인식하도록 학습하고 있음을 시사한다.
저자들은 다른 학습률 일정을 사용하여 실험을 수행하고, 모델이 예제를 한 번만 보고도 빠르게 인식하도록 학습하는 것을 관찰하였다.
저자들은 사전 훈련된 대형 언어 모델이 최소 손실에 가까운 영역에서 매우 부드러운 손실 표면을 가질 수 있으며, 이는 그들이 단일 예제로부터 빠르게 학습할 수 있게 한다고 제안한다.
이러한 빠른 학습은 전통적인 훈련 방법에 도전할 수 있으며, 새로운 정보가 도입될 때 모델이 이전에 학습한 정보를 잊어버리는 재앙적인 잊어버림 문제를 악화시킬 수 있다.
저자들은 드롭아웃이나 확률적 깊이와 같은 기술의 사용을 늘리거나, 훈련 과정에서 다양한 데이터셋의 혼합을 사용하는 등의 가능한 완화 전략을 제안한다.
저자들은 이 현상과 LLMs의 훈련 및 사용에 대한 그것의 영향을 더 잘 이해하기 위해 추가 연구와 대안 가설을 제안한다.

▲

GN⁺ 2023-09-07 [-]

Hacker News 의견

대형 언어 모델(Large Language Models, LLMs)의 놀라운 단일 예제에서 빠르게 기억하는 능력에 대한 기사 토론
포스트의 저자 중 한 명이 30년 동안 신경망과 함께 작업하면서 이런 행동을 가장 놀라웠다고 발견
일부 독자들은 기사에서 사용된 "과도한 자신감"이라는 용어가 오해의 소지가 있으며, "과적합" 또는 "결정되지 않음"이 더 정확할 것이라 주장
생성 모델에서 수십억 개의 매개변수를 고려하면, 일반적인 머신러닝(Machine Learning, ML) 관점에서 LLMs가 단일 예제에서 빠르게 학습하는 현상은 놀랍지 않음
대부분의 LLMs가 단 한 번의 epoch만으로 훈련되는 것에 대한 함의에 대한 논의, 과적합 문제를 제기
한 사용자가 ChatGPT와의 개인적인 경험을 공유, LLM이 훈련받지 않은 질문의 자료를 제공하는 것이 문제를 해결하는 데 도움이 되었다고 강조
일부 독자들이 LLMs가 자신들의 훈련 데이터를 보강하는 데 사용되었는지 의문을 제기, "꿈꾸는" 또는 합성 입력을 훈련 데이터에 추가하는 아이디어를 제안
기사 제목에 대한 논쟁, 일부 독자들은 단일 예제에서 학습하는 것이 바람직하다고 믿는 반면, 기억하는 것은 그렇지 않다고 생각하여 오해의 소지가 있다고 판단
일부 사용자들이 Vision Transformers (ViTs)를 훈련시킬 때 비슷한 손실 곡선 경험을 공유, 이런 이상한 손실 곡선이 Transformer 기반 모델의 특징일 수 있다고 제안
이 주제에 관심이 있는 사람들을 위해 "Transformer에서의 대량 편집 메모리"와 "GPT에서 사실 연관성 위치 및 편집"과 같은 다른 관련 작품 추천
기사의 발견이 사실이라면, 작고 인간이 관리하는 데이터셋이 LLMs에 의해 생성된 합성 데이터셋보다 더 가치있을 수 있다는 아이디어를 지지할 수 있음

답변달기