LLM은 더 이상 "인터넷으로 학습"하지 않는다

(allenpike.com)

20P by GN⁺ 2024-06-03 | ★ favorite | 댓글 2개

과거에는 LLM이 주로 인터넷 데이터로 학습되었고, 현재도 대부분 그렇지만, 점점 덜 사실(less true)이 되고 있음
"인터넷 시뮬레이터"라는 개념은 GPT-5 이상의 동작을 예측하는 데 유용하지 않음
- 새로운 모델들은 이미 이 정의를 넘어서고 있으며, 이러한 변화는 이제 막 시작되었을 뿐임

데이터 장벽(Data Wall)

2020년 OpenAI의 GPT-3 논문은 학습 데이터셋을 상세히 기술했으나, 이는 과거의 유물임
- 2022년 이후 LLM 학습에는 사용자 맞춤형 피드백이 사용되기 시작했고, OpenAI 등은 학습 데이터에 대해 말을 아끼고 있음
- GPT-4나 Sora, GPT-5가 무엇으로 학습되었는지는 알 수 없지만, 단순히 인터넷 데이터만은 아님
LLM 학습자들은 최근 "데이터 장벽"에 부딪혔음
- OpenAI는 이미 웹상의 거의 모든 데이터를 보유하고 있어, 더 나은 LLM을 만들기 위해서는 비공개 데이터 획득 및 생성이 필요함
돈이 있는 연구소라면 비공개 데이터를 확보하고 생성하는 것이 해답임
- 초기에는 기존 학습 데이터를 더 유용하게 만들거나, 기존 비공개 데이터를 학습 풀에 추가하는 데 초점을 맞췄음
- 예를 들어
  1. 주석 및 필터링: 연구자들은 학습 데이터에 대한 주석을 만들어 고품질 데이터에 집중하여 더 나은 모델을 만들 수 있게 함
  2. RLHF: 연구소는 사람이 모델 출력을 평가하게 하고, 이 데이터를 사용하여 모델을 미세 조정하고 유용한 행동을 장려함
  3. 사용 데이터: ChatGPT는 하루에 약 100억 개의 토큰 데이터를 생성한다고 함
  4. 데이터 획득: 이메일, 채팅 로그, 독점 매뉴얼, JIRA 티켓, 전화 녹음, 내부 보고서, 계약서 등 많은 데이터가 인터넷에 없으며, 모델 학습자는 이를 학습 데이터에 추가할 수 있음
그러나 이러한 기술들은 "기존 데이터와 다른 출력을 생성하는 데 LLM이 취약하다"는 문제를 완전히 해결하지는 못함
- LLM은 다음과 같은 작업을 수행하는 데 어려움을 겪음 (온라인에 이를 보여주는 텍스트가 많지 않기 때문)
  1. 답변에 대한 의심이나 불확실성 표현
  2. 반복되는 문구나 루프 없이 긴 대화 유지
  3. LLM 에이전트가 추구할 고수준 계획 수립
  4. 대규모 레거시 코드베이스에 대한 수석 엔지니어와 같은 추론
  5. 매우 긴 프롬프트나 복잡한 프롬프트를 안정적으로 따르기
개선된 아키텍처와 더 많은 파라미터가 이러한 제한을 해결하는 데 도움이 될 수 있지만, OpenAI, Meta, Google, Microsoft 등은 새로운 예제를 만들어 학습하는 더 간단한 방법으로 이러한 격차를 메우기 위해 많은 돈을 쓰고 있음

LLM은 이제 맞춤형 데이터로 학습되고 있음

Microsoft의 Phi-3 기술 보고서(4월 발표)가 맞춤형 데이터 증가의 최근 사례임
- phi-3-mini는 파라미터가 38억 개에 불과하지만, 더 크고 무거운 Mixtral 모델과 경쟁할 만한 성능을 보여줌
- 이러한 개선의 일부는 더 큰 LLM에 의해 생성된 고품질 합성 데이터를 학습 데이터에 포함시킨 것으로 설명됨
- 합성 데이터를 통해 인터넷 소스 데이터의 격차를 메울 수 있고, 주어진 크기에 대한 모델 성능을 향상시킬 수 있음
합성 데이터는 현재 LLM 연구에서 주목받는 주제임
- LLM을 자체 출력으로 학습시키는 것이 어디까지 가능할지는 아직 명확하지 않음 (거대한 신경망 뱀이 자기 꼬리를 먹는 것과 같은 상황이 발생할 수 있음)
- 그러나 최소한 합성 데이터는 LLM이 "인터넷 시뮬레이터"처럼 동작함으로써 발생하는 격차를 메우는 데 도움이 될 것임
  - 예를 들어, 불확실성을 표현하는 학습 예제가 부족하거나 데이터가 대표성이 없어 편향된 경우, 더 나은 예제를 생성할 수 있음
그러나 LLM으로 훌륭한 합성 데이터를 만드는 것은 어려운 문제이며 한계가 있을 것임
- 그래서 인터넷 외부 데이터의 마지막 거대한 원천인 "인간"이 등장하게 됨

연간 10억 달러($1B)로 얼마나 많은 데이터를 만들 수 있을까?

돈을 지불하면 사람들이 기꺼이 데이터를 만들어 줌
- Scale.ai는 "AI를 위한 데이터 제조소"로 자칭하며, 연구소가 사람들에게 돈을 지불하고 데이터를 만들게 하는 서비스를 운영함
- AI 기업들은 이미 Scale의 서비스에 연간 10억 달러 이상을 지불하고 있다고 함
- 이 중 일부는 웹이나 LLM에서 가져온 데이터에 대한 주석과 평가를 위한 것이지만, 새로운 학습 데이터를 처음부터 만들기도 함
- Scale은 박사 수준의 학자, 변호사, 회계사, 시인, 작가, 특정 언어에 능통한 사람 등 고도로 전문화된 작업자에게 초점을 맞추고 있음
- 이들은 OpenAI, Cohere, Anthropic, Google 등의 회사를 위해 모델을 학습하고 테스트하며, 더 높은 시급을 받음
OpenAI와 같은 회사는 전문가들이 인터넷 소스 데이터의 빈 곳을 채우는 새롭고 훌륭한 데이터를 만들도록 비용을 지불할 수 있으며, 이 데이터를 이후 모델 학습에 사용함
- "Ph.D.가 답을 모르는 질문을 받았을 때 사려 깊은 불확실성을 표현하는 5만 개의 예시" 같은 데이터셋은 생산 비용보다 훨씬 더 가치가 있을 수 있음
LLM은 원래 인터넷에서 학습되었고, 초기 약점의 많은 부분이 웹에 게시된 잡다한 내용에서 비롯되었다고 이해할 수 있음
그러나 맞춤형 학습 데이터의 규모와 영향력이 커짐에 따라, LLM이 "인터넷 시뮬레이션"을 크게 뛰어넘을 것으로 예상됨
- 특히 인터넷에는 없지만 10억 달러 이상의 맞춤형 데이터 생성으로 입증될 수 있는 것들에 대해 계속 발전할 것임
즉, 이 열차는 당분간 계속 굴러갈 것임

GN⁺의 의견

데이터의 중요성: LLMs의 성능 향상을 위해서는 다양한 출처의 데이터가 필요함. 인터넷 데이터만으로는 한계가 있음.
비용 문제: 맞춤형 데이터 생성에는 많은 비용이 소요됨. 이는 소규모 연구소나 기업에게는 큰 부담이 될 수 있음.
합성 데이터의 한계: 합성 데이터는 유용하지만, 실제 인간이 생성한 데이터와는 차이가 있을 수 있음. 이로 인해 모델의 현실성에 한계가 있을 수 있음.
미래 전망: 맞춤형 데이터와 합성 데이터를 활용한 LLMs의 발전은 계속될 것으로 예상됨. 이는 다양한 분야에서 혁신을 가져올 수 있음.
경쟁 상황: OpenAI, Google, Microsoft 등 주요 기업들이 맞춤형 데이터 생성에 투자하고 있어, 경쟁이 치열해질 것으로 보임.

▲

bytebrawlers 2024-06-04 [-]

Data wall이라는게 결국 충분한 Compute이 있을때 문제가 되는것이고 오히려 전력 효율과 공급의 문제를 볼때 Compute의 증가의 한계 즉 전력량의 문제가 더 중요해질것

답변달기

▲

GN⁺ 2024-06-03 [-]

Hacker News 의견

이 글은 몇 가지 좋은 점을 지적하고 있으며, 특히 Phi-3는 매우 흥미로운 기술임. Anthropic, Mistral, FAIR 같은 최신 아키텍처를 언급하지 않은 것이 이상함.
현대 LLM은 웹에서 수집한 데이터만으로 훈련된 것이 아니라, 많은 사람들이 만든 맞춤형 데이터셋으로 훈련됨. 이는 성장 가능성을 보여주지만, 잘못된 방향으로 무한히 확장될 위험이 있음.
인간이 편향된 데이터를 생성하는 것은 문제임. LLM이 독창적인 응답을 생성하지 못하는 예로, 유튜브 구독 버튼을 클릭하도록 유도하는 다양한 방법을 제시하지 못함.
LLM 훈련에 사용되는 데이터는 저임금 인도 프로그래머들이 제공한 것임. 현재는 전문가들이 데이터를 제공하지만, 저임금 노동자로 전환될 가능성이 있음.
전문가 시스템이 실패한 이유는 전문가들에게 계속 비용을 지불해야 하기 때문임. OpenAI와 MS의 협력은 AGI(인공지능 일반) 달성을 목표로 하지만, 실질적인 한계가 있음.
멀티모달 모델을 훈련시키는 것이 여전히 도전 과제임. 데이터 부족이 아닌 다른 문제들이 병목 현상을 일으킴.
"Ph.D.들이 모르는 질문에 대해 신중하게 불확실성을 표현하는 50,000개의 예시" 같은 데이터셋은 생산 비용보다 더 큰 가치를 가질 수 있음.
기술 투자로 인해 숙련된 작가들이 글을 쓰도록 하는 WPA 같은 프로그램이 생기길 바람. 이는 우수한 인간 저작물의 집합체를 만들 수 있음.
AI의 미래 큰 진전은 데이터와 관련이 없을 것 같음.
OpenAI 등은 데이터를 비공개로 유지하겠다고 약속한 회사들에게 거액을 지불할 것임. Slack, Atlassian, Dropbox 같은 회사들이 이에 해당됨.

답변달기