# LLM은 더 이상 "인터넷으로 학습"하지 않는다

> Clean Markdown view of GeekNews topic #15150. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=15150](https://news.hada.io/topic?id=15150)
- GeekNews Markdown: [https://news.hada.io/topic/15150.md](https://news.hada.io/topic/15150.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-06-03T10:25:05+09:00
- Updated: 2024-06-03T10:25:05+09:00
- Original source: [allenpike.com](https://allenpike.com/2024/llms-trained-on-internet)
- Points: 20
- Comments: 2

## Topic Body

- 과거에는 LLM이 주로 인터넷 데이터로 학습되었고, 현재도 대부분 그렇지만, 점점 덜 사실(less true)이 되고 있음  
- "인터넷 시뮬레이터"라는 개념은 GPT-5 이상의 동작을 예측하는 데 유용하지 않음  
  - 새로운 모델들은 이미 이 정의를 넘어서고 있으며, 이러한 변화는 이제 막 시작되었을 뿐임  
  
### 데이터 장벽(Data Wall)  
  
- 2020년 OpenAI의 GPT-3 논문은 학습 데이터셋을 상세히 기술했으나, 이는 과거의 유물임  
  - 2022년 이후 LLM 학습에는 사용자 맞춤형 피드백이 사용되기 시작했고, OpenAI 등은 학습 데이터에 대해 말을 아끼고 있음  
  - GPT-4나 Sora, GPT-5가 무엇으로 학습되었는지는 알 수 없지만, **단순히 인터넷 데이터만은 아님**  
- LLM 학습자들은 최근 "데이터 장벽"에 부딪혔음  
  - OpenAI는 이미 웹상의 거의 모든 데이터를 보유하고 있어, 더 나은 LLM을 만들기 위해서는 비공개 데이터 획득 및 생성이 필요함  
- 돈이 있는 연구소라면 비공개 데이터를 확보하고 생성하는 것이 해답임   
  - 초기에는 기존 학습 데이터를 더 유용하게 만들거나, 기존 비공개 데이터를 학습 풀에 추가하는 데 초점을 맞췄음  
  - 예를 들어   
    1. **주석 및 필터링**: 연구자들은 학습 데이터에 대한 주석을 만들어 고품질 데이터에 집중하여 더 나은 모델을 만들 수 있게 함  
    2. **RLHF**: 연구소는 사람이 모델 출력을 평가하게 하고, 이 데이터를 사용하여 모델을 미세 조정하고 유용한 행동을 장려함  
    3. **사용 데이터**: ChatGPT는 하루에 약 100억 개의 토큰 데이터를 생성한다고 함  
    4. **데이터 획득**: 이메일, 채팅 로그, 독점 매뉴얼, JIRA 티켓, 전화 녹음, 내부 보고서, 계약서 등 많은 데이터가 인터넷에 없으며, 모델 학습자는 이를 학습 데이터에 추가할 수 있음  
- 그러나 이러한 기술들은 "**기존 데이터와 다른 출력을 생성하는 데 LLM이 취약하다**"는 문제를 완전히 해결하지는 못함  
  - LLM은 다음과 같은 작업을 수행하는 데 어려움을 겪음 (온라인에 이를 보여주는 텍스트가 많지 않기 때문)  
    1. 답변에 대한 의심이나 불확실성 표현  
    2. 반복되는 문구나 루프 없이 긴 대화 유지  
    3. LLM 에이전트가 추구할 고수준 계획 수립  
    4. 대규모 레거시 코드베이스에 대한 수석 엔지니어와 같은 추론  
    5. 매우 긴 프롬프트나 복잡한 프롬프트를 안정적으로 따르기  
- 개선된 아키텍처와 더 많은 파라미터가 이러한 제한을 해결하는 데 도움이 될 수 있지만, OpenAI, Meta, Google, Microsoft 등은 **새로운 예제를 만들어 학습**하는 더 간단한 방법으로 이러한 격차를 메우기 위해 많은 돈을 쓰고 있음  
  
### LLM은 이제 맞춤형 데이터로 학습되고 있음  
  
- Microsoft의 Phi-3 기술 보고서(4월 발표)가 맞춤형 데이터 증가의 최근 사례임  
  - phi-3-mini는 파라미터가 38억 개에 불과하지만, 더 크고 무거운 Mixtral 모델과 경쟁할 만한 성능을 보여줌  
  - 이러한 개선의 일부는 더 큰 LLM에 의해 생성된 고품질 합성 데이터를 학습 데이터에 포함시킨 것으로 설명됨  
  - 합성 데이터를 통해 인터넷 소스 데이터의 격차를 메울 수 있고, 주어진 크기에 대한 모델 성능을 향상시킬 수 있음  
- 합성 데이터는 현재 LLM 연구에서 주목받는 주제임  
  - LLM을 자체 출력으로 학습시키는 것이 어디까지 가능할지는 아직 명확하지 않음 (거대한 신경망 뱀이 자기 꼬리를 먹는 것과 같은 상황이 발생할 수 있음)  
  - 그러나 최소한 합성 데이터는 LLM이 "인터넷 시뮬레이터"처럼 동작함으로써 발생하는 격차를 메우는 데 도움이 될 것임  
    - 예를 들어, 불확실성을 표현하는 학습 예제가 부족하거나 데이터가 대표성이 없어 편향된 경우, 더 나은 예제를 생성할 수 있음  
- 그러나 LLM으로 훌륭한 합성 데이터를 만드는 것은 어려운 문제이며 한계가 있을 것임  
  - 그래서 인터넷 외부 데이터의 마지막 거대한 원천인 "**인간**"이 등장하게 됨  
  
### 연간 10억 달러($1B)로 얼마나 많은 데이터를 만들 수 있을까?  
- 돈을 지불하면 사람들이 기꺼이 데이터를 만들어 줌  
  - Scale.ai는 "AI를 위한 데이터 제조소"로 자칭하며, 연구소가 사람들에게 돈을 지불하고 데이터를 만들게 하는 서비스를 운영함  
  - AI 기업들은 이미 Scale의 서비스에 연간 10억 달러 이상을 지불하고 있다고 함  
  - 이 중 일부는 웹이나 LLM에서 가져온 데이터에 대한 주석과 평가를 위한 것이지만, 새로운 학습 데이터를 처음부터 만들기도 함  
  - Scale은 박사 수준의 학자, 변호사, 회계사, 시인, 작가, 특정 언어에 능통한 사람 등 고도로 전문화된 작업자에게 초점을 맞추고 있음  
  - 이들은 OpenAI, Cohere, Anthropic, Google 등의 회사를 위해 모델을 학습하고 테스트하며, 더 높은 시급을 받음  
- OpenAI와 같은 회사는 전문가들이 인터넷 소스 데이터의 빈 곳을 채우는 새롭고 훌륭한 데이터를 만들도록 비용을 지불할 수 있으며, 이 데이터를 이후 모델 학습에 사용함  
  - "Ph.D.가 답을 모르는 질문을 받았을 때 사려 깊은 불확실성을 표현하는 5만 개의 예시" 같은 데이터셋은 생산 비용보다 훨씬 더 가치가 있을 수 있음  
- LLM은 원래 인터넷에서 학습되었고, 초기 약점의 많은 부분이 웹에 게시된 잡다한 내용에서 비롯되었다고 이해할 수 있음  
- 그러나 맞춤형 학습 데이터의 규모와 영향력이 커짐에 따라, LLM이 "인터넷 시뮬레이션"을 크게 뛰어넘을 것으로 예상됨  
  - 특히 인터넷에는 없지만 10억 달러 이상의 맞춤형 데이터 생성으로 입증될 수 있는 것들에 대해 계속 발전할 것임  
- 즉, 이 열차는 당분간 계속 굴러갈 것임  
  
### GN⁺의 의견  
  
- **데이터의 중요성**: LLMs의 성능 향상을 위해서는 다양한 출처의 데이터가 필요함. 인터넷 데이터만으로는 한계가 있음.  
- **비용 문제**: 맞춤형 데이터 생성에는 많은 비용이 소요됨. 이는 소규모 연구소나 기업에게는 큰 부담이 될 수 있음.  
- **합성 데이터의 한계**: 합성 데이터는 유용하지만, 실제 인간이 생성한 데이터와는 차이가 있을 수 있음. 이로 인해 모델의 현실성에 한계가 있을 수 있음.  
- **미래 전망**: 맞춤형 데이터와 합성 데이터를 활용한 LLMs의 발전은 계속될 것으로 예상됨. 이는 다양한 분야에서 혁신을 가져올 수 있음.  
- **경쟁 상황**: OpenAI, Google, Microsoft 등 주요 기업들이 맞춤형 데이터 생성에 투자하고 있어, 경쟁이 치열해질 것으로 보임.

## Comments


### Comment 25931

- Author: bytebrawlers
- Created: 2024-06-04T22:58:04+09:00
- Points: 1

Data wall이라는게 결국 충분한 Compute이 있을때 문제가 되는것이고 오히려 전력 효율과 공급의 문제를 볼때 Compute의 증가의 한계 즉 전력량의 문제가 더 중요해질것

### Comment 25867

- Author: neo
- Created: 2024-06-03T10:25:05+09:00
- Points: 1

##### [Hacker News 의견](https://news.ycombinator.com/item?id=40549021)   
  
- 이 글은 몇 가지 좋은 점을 지적하고 있으며, 특히 Phi-3는 매우 흥미로운 기술임. Anthropic, Mistral, FAIR 같은 최신 아키텍처를 언급하지 않은 것이 이상함.  
- 현대 LLM은 웹에서 수집한 데이터만으로 훈련된 것이 아니라, 많은 사람들이 만든 맞춤형 데이터셋으로 훈련됨. 이는 성장 가능성을 보여주지만, 잘못된 방향으로 무한히 확장될 위험이 있음.  
- 인간이 편향된 데이터를 생성하는 것은 문제임. LLM이 독창적인 응답을 생성하지 못하는 예로, 유튜브 구독 버튼을 클릭하도록 유도하는 다양한 방법을 제시하지 못함.  
- LLM 훈련에 사용되는 데이터는 저임금 인도 프로그래머들이 제공한 것임. 현재는 전문가들이 데이터를 제공하지만, 저임금 노동자로 전환될 가능성이 있음.  
- 전문가 시스템이 실패한 이유는 전문가들에게 계속 비용을 지불해야 하기 때문임. OpenAI와 MS의 협력은 AGI(인공지능 일반) 달성을 목표로 하지만, 실질적인 한계가 있음.  
- 멀티모달 모델을 훈련시키는 것이 여전히 도전 과제임. 데이터 부족이 아닌 다른 문제들이 병목 현상을 일으킴.  
- "Ph.D.들이 모르는 질문에 대해 신중하게 불확실성을 표현하는 50,000개의 예시" 같은 데이터셋은 생산 비용보다 더 큰 가치를 가질 수 있음.  
- 기술 투자로 인해 숙련된 작가들이 글을 쓰도록 하는 WPA 같은 프로그램이 생기길 바람. 이는 우수한 인간 저작물의 집합체를 만들 수 있음.  
- AI의 미래 큰 진전은 데이터와 관련이 없을 것 같음.  
- OpenAI 등은 데이터를 비공개로 유지하겠다고 약속한 회사들에게 거액을 지불할 것임. Slack, Atlassian, Dropbox 같은 회사들이 이에 해당됨.