# 데이터는 여전히 해자(Moat)일까?

> Clean Markdown view of GeekNews topic #11382. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=11382](https://news.hada.io/topic?id=11382)
- GeekNews Markdown: [https://news.hada.io/topic/11382.md](https://news.hada.io/topic/11382.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2023-10-17T10:46:01+09:00
- Updated: 2023-10-17T10:46:01+09:00
- Original source: [matt-rickard.com](https://matt-rickard.com/is-data-still-a-moat)
- Points: 12
- Comments: 0

## Topic Body

- "데이터는 새로운 석유다"는 지난 10년간의 슬로건 이었음   
  - 기업들은 데이터가 얼마나 가치가 있는지, 또는 얼마나 가치가 있을 수 있는지를 알게 됨  
  - 기업들은 서둘러 최신 데이터 스택에 투자하고 테라바이트 단위의 데이터를 데이터 웨어하우스에 저장했음  
  - 데이터 사이언스 팀은 수치를 분석하고, 그 분석 결과를 제품 결정(또는 경우에 따라서는 추천 피드와 같은 고객 대면 기능)에 사용해야 했음   
  - 성공 사례도 있었지만 많은 조직이 실행에 실패  
  - Silo화된 데이터(또는 데이터 팀), 값비싼 클라우드 데이터 웨어하우스 및 불량 쿼리(현재는 축소되고 있음), 깔끔한 데이터 파이프라인(데이터를 정제된 상태로 만들기 위한 상당한 운영 작업)의 부재 등이 그 이유  
- 이제 "생성형 AI"를 사용해도 데이터는 여전히 해자일까 ?  
- 합성 데이터 세트가 학습 및 추론 파이프라인에서 0이 아닌 부분을 차지할 때 데이터의 가치는 더 높아질까, 아니면 낮아질까?  
- 한편으로, "**여전히 양질의 데이터는 중요함**"  
  - LLM 개선에 대한 많은 초점은 모델과 데이터 세트 크기에 맞춰져 있음  
  - LLM이 학습되는 데이터 품질에 따라 크게 영향을 받을 수 있다는 초기 증거들이 있음  
  - WizardLM, TinyStories, phi-1이 그 예  
  - 마찬가지로 RLHF 데이터 세트도 중요함  
- 또 한편으론, 출력 형식 및 사용자 지정 스타일에 대한 미세 조정 에는 "**데이터 포인트가 100개 정도만 있어도 크게 개선됨**"  
  - Databricks, Meta, Spark, Audible의 LLM 연구원들은 미세 조정에 필요한 데이터의 양에 대한 경험적 분석을 수행했음  
  - 이 정도의 데이터는 수동으로 생성하거나 큐레이팅하기 쉬움  
- **모델 증류(Model distillation)는 실제적이고 간단하게 수행할 수 있음**  
  - LLM을 사용하여 합성 데이터를 생성하여 자체 LLM을 훈련하거나 미세 조정할 수 있으며, 일부 지식은 트랜스퍼 됨  
  - 이는 원시 LLM을 상대방에게 노출하는 경우에는 문제가 되지만(내부에서 사용하는 경우에는 그다지 문제가 되지 않음), 특별히 고유하지 않은 데이터는 쉽게 복사할 수 있다는 의미

## Comments


_No public comments on this page._