- "데이터는 새로운 석유다"는 지난 10년간의 슬로건 이었음
- 기업들은 데이터가 얼마나 가치가 있는지, 또는 얼마나 가치가 있을 수 있는지를 알게 됨
- 기업들은 서둘러 최신 데이터 스택에 투자하고 테라바이트 단위의 데이터를 데이터 웨어하우스에 저장했음
- 데이터 사이언스 팀은 수치를 분석하고, 그 분석 결과를 제품 결정(또는 경우에 따라서는 추천 피드와 같은 고객 대면 기능)에 사용해야 했음
- 성공 사례도 있었지만 많은 조직이 실행에 실패
- Silo화된 데이터(또는 데이터 팀), 값비싼 클라우드 데이터 웨어하우스 및 불량 쿼리(현재는 축소되고 있음), 깔끔한 데이터 파이프라인(데이터를 정제된 상태로 만들기 위한 상당한 운영 작업)의 부재 등이 그 이유
- 이제 "생성형 AI"를 사용해도 데이터는 여전히 해자일까 ?
- 합성 데이터 세트가 학습 및 추론 파이프라인에서 0이 아닌 부분을 차지할 때 데이터의 가치는 더 높아질까, 아니면 낮아질까?
- 한편으로, "여전히 양질의 데이터는 중요함"
- LLM 개선에 대한 많은 초점은 모델과 데이터 세트 크기에 맞춰져 있음
- LLM이 학습되는 데이터 품질에 따라 크게 영향을 받을 수 있다는 초기 증거들이 있음
- WizardLM, TinyStories, phi-1이 그 예
- 마찬가지로 RLHF 데이터 세트도 중요함
- 또 한편으론, 출력 형식 및 사용자 지정 스타일에 대한 미세 조정 에는 "데이터 포인트가 100개 정도만 있어도 크게 개선됨"
- Databricks, Meta, Spark, Audible의 LLM 연구원들은 미세 조정에 필요한 데이터의 양에 대한 경험적 분석을 수행했음
- 이 정도의 데이터는 수동으로 생성하거나 큐레이팅하기 쉬움
-
모델 증류(Model distillation)는 실제적이고 간단하게 수행할 수 있음
- LLM을 사용하여 합성 데이터를 생성하여 자체 LLM을 훈련하거나 미세 조정할 수 있으며, 일부 지식은 트랜스퍼 됨
- 이는 원시 LLM을 상대방에게 노출하는 경우에는 문제가 되지만(내부에서 사용하는 경우에는 그다지 문제가 되지 않음), 특별히 고유하지 않은 데이터는 쉽게 복사할 수 있다는 의미