▲GN⁺ 2023-09-07 | parent | ★ favorite | on: LLMs이 단일 예제로부터 배울 수 있을까?(fast.ai)Hacker News 의견 대형 언어 모델(Large Language Models, LLMs)의 놀라운 단일 예제에서 빠르게 기억하는 능력에 대한 기사 토론 포스트의 저자 중 한 명이 30년 동안 신경망과 함께 작업하면서 이런 행동을 가장 놀라웠다고 발견 일부 독자들은 기사에서 사용된 "과도한 자신감"이라는 용어가 오해의 소지가 있으며, "과적합" 또는 "결정되지 않음"이 더 정확할 것이라 주장 생성 모델에서 수십억 개의 매개변수를 고려하면, 일반적인 머신러닝(Machine Learning, ML) 관점에서 LLMs가 단일 예제에서 빠르게 학습하는 현상은 놀랍지 않음 대부분의 LLMs가 단 한 번의 epoch만으로 훈련되는 것에 대한 함의에 대한 논의, 과적합 문제를 제기 한 사용자가 ChatGPT와의 개인적인 경험을 공유, LLM이 훈련받지 않은 질문의 자료를 제공하는 것이 문제를 해결하는 데 도움이 되었다고 강조 일부 독자들이 LLMs가 자신들의 훈련 데이터를 보강하는 데 사용되었는지 의문을 제기, "꿈꾸는" 또는 합성 입력을 훈련 데이터에 추가하는 아이디어를 제안 기사 제목에 대한 논쟁, 일부 독자들은 단일 예제에서 학습하는 것이 바람직하다고 믿는 반면, 기억하는 것은 그렇지 않다고 생각하여 오해의 소지가 있다고 판단 일부 사용자들이 Vision Transformers (ViTs)를 훈련시킬 때 비슷한 손실 곡선 경험을 공유, 이런 이상한 손실 곡선이 Transformer 기반 모델의 특징일 수 있다고 제안 이 주제에 관심이 있는 사람들을 위해 "Transformer에서의 대량 편집 메모리"와 "GPT에서 사실 연관성 위치 및 편집"과 같은 다른 관련 작품 추천 기사의 발견이 사실이라면, 작고 인간이 관리하는 데이터셋이 LLMs에 의해 생성된 합성 데이터셋보다 더 가치있을 수 있다는 아이디어를 지지할 수 있음
Hacker News 의견