20P by neo 1달전 | favorite | 댓글 2개
  • 과거에는 LLM이 주로 인터넷 데이터로 학습되었고, 현재도 대부분 그렇지만, 점점 덜 사실(less true)이 되고 있음
  • "인터넷 시뮬레이터"라는 개념은 GPT-5 이상의 동작을 예측하는 데 유용하지 않음
    • 새로운 모델들은 이미 이 정의를 넘어서고 있으며, 이러한 변화는 이제 막 시작되었을 뿐임

데이터 장벽(Data Wall)

  • 2020년 OpenAI의 GPT-3 논문은 학습 데이터셋을 상세히 기술했으나, 이는 과거의 유물임
    • 2022년 이후 LLM 학습에는 사용자 맞춤형 피드백이 사용되기 시작했고, OpenAI 등은 학습 데이터에 대해 말을 아끼고 있음
    • GPT-4나 Sora, GPT-5가 무엇으로 학습되었는지는 알 수 없지만, 단순히 인터넷 데이터만은 아님
  • LLM 학습자들은 최근 "데이터 장벽"에 부딪혔음
    • OpenAI는 이미 웹상의 거의 모든 데이터를 보유하고 있어, 더 나은 LLM을 만들기 위해서는 비공개 데이터 획득 및 생성이 필요함
  • 돈이 있는 연구소라면 비공개 데이터를 확보하고 생성하는 것이 해답임
    • 초기에는 기존 학습 데이터를 더 유용하게 만들거나, 기존 비공개 데이터를 학습 풀에 추가하는 데 초점을 맞췄음
    • 예를 들어
      1. 주석 및 필터링: 연구자들은 학습 데이터에 대한 주석을 만들어 고품질 데이터에 집중하여 더 나은 모델을 만들 수 있게 함
      2. RLHF: 연구소는 사람이 모델 출력을 평가하게 하고, 이 데이터를 사용하여 모델을 미세 조정하고 유용한 행동을 장려함
      3. 사용 데이터: ChatGPT는 하루에 약 100억 개의 토큰 데이터를 생성한다고 함
      4. 데이터 획득: 이메일, 채팅 로그, 독점 매뉴얼, JIRA 티켓, 전화 녹음, 내부 보고서, 계약서 등 많은 데이터가 인터넷에 없으며, 모델 학습자는 이를 학습 데이터에 추가할 수 있음
  • 그러나 이러한 기술들은 "기존 데이터와 다른 출력을 생성하는 데 LLM이 취약하다"는 문제를 완전히 해결하지는 못함
    • LLM은 다음과 같은 작업을 수행하는 데 어려움을 겪음 (온라인에 이를 보여주는 텍스트가 많지 않기 때문)
      1. 답변에 대한 의심이나 불확실성 표현
      2. 반복되는 문구나 루프 없이 긴 대화 유지
      3. LLM 에이전트가 추구할 고수준 계획 수립
      4. 대규모 레거시 코드베이스에 대한 수석 엔지니어와 같은 추론
      5. 매우 긴 프롬프트나 복잡한 프롬프트를 안정적으로 따르기
  • 개선된 아키텍처와 더 많은 파라미터가 이러한 제한을 해결하는 데 도움이 될 수 있지만, OpenAI, Meta, Google, Microsoft 등은 새로운 예제를 만들어 학습하는 더 간단한 방법으로 이러한 격차를 메우기 위해 많은 돈을 쓰고 있음

LLM은 이제 맞춤형 데이터로 학습되고 있음

  • Microsoft의 Phi-3 기술 보고서(4월 발표)가 맞춤형 데이터 증가의 최근 사례임
    • phi-3-mini는 파라미터가 38억 개에 불과하지만, 더 크고 무거운 Mixtral 모델과 경쟁할 만한 성능을 보여줌
    • 이러한 개선의 일부는 더 큰 LLM에 의해 생성된 고품질 합성 데이터를 학습 데이터에 포함시킨 것으로 설명됨
    • 합성 데이터를 통해 인터넷 소스 데이터의 격차를 메울 수 있고, 주어진 크기에 대한 모델 성능을 향상시킬 수 있음
  • 합성 데이터는 현재 LLM 연구에서 주목받는 주제임
    • LLM을 자체 출력으로 학습시키는 것이 어디까지 가능할지는 아직 명확하지 않음 (거대한 신경망 뱀이 자기 꼬리를 먹는 것과 같은 상황이 발생할 수 있음)
    • 그러나 최소한 합성 데이터는 LLM이 "인터넷 시뮬레이터"처럼 동작함으로써 발생하는 격차를 메우는 데 도움이 될 것임
      • 예를 들어, 불확실성을 표현하는 학습 예제가 부족하거나 데이터가 대표성이 없어 편향된 경우, 더 나은 예제를 생성할 수 있음
  • 그러나 LLM으로 훌륭한 합성 데이터를 만드는 것은 어려운 문제이며 한계가 있을 것임
    • 그래서 인터넷 외부 데이터의 마지막 거대한 원천인 "인간"이 등장하게 됨

연간 10억 달러($1B)로 얼마나 많은 데이터를 만들 수 있을까?

  • 돈을 지불하면 사람들이 기꺼이 데이터를 만들어 줌
    • Scale.ai는 "AI를 위한 데이터 제조소"로 자칭하며, 연구소가 사람들에게 돈을 지불하고 데이터를 만들게 하는 서비스를 운영함
    • AI 기업들은 이미 Scale의 서비스에 연간 10억 달러 이상을 지불하고 있다고 함
    • 이 중 일부는 웹이나 LLM에서 가져온 데이터에 대한 주석과 평가를 위한 것이지만, 새로운 학습 데이터를 처음부터 만들기도 함
    • Scale은 박사 수준의 학자, 변호사, 회계사, 시인, 작가, 특정 언어에 능통한 사람 등 고도로 전문화된 작업자에게 초점을 맞추고 있음
    • 이들은 OpenAI, Cohere, Anthropic, Google 등의 회사를 위해 모델을 학습하고 테스트하며, 더 높은 시급을 받음
  • OpenAI와 같은 회사는 전문가들이 인터넷 소스 데이터의 빈 곳을 채우는 새롭고 훌륭한 데이터를 만들도록 비용을 지불할 수 있으며, 이 데이터를 이후 모델 학습에 사용함
    • "Ph.D.가 답을 모르는 질문을 받았을 때 사려 깊은 불확실성을 표현하는 5만 개의 예시" 같은 데이터셋은 생산 비용보다 훨씬 더 가치가 있을 수 있음
  • LLM은 원래 인터넷에서 학습되었고, 초기 약점의 많은 부분이 웹에 게시된 잡다한 내용에서 비롯되었다고 이해할 수 있음
  • 그러나 맞춤형 학습 데이터의 규모와 영향력이 커짐에 따라, LLM이 "인터넷 시뮬레이션"을 크게 뛰어넘을 것으로 예상됨
    • 특히 인터넷에는 없지만 10억 달러 이상의 맞춤형 데이터 생성으로 입증될 수 있는 것들에 대해 계속 발전할 것임
  • 즉, 이 열차는 당분간 계속 굴러갈 것임

GN⁺의 의견

  • 데이터의 중요성: LLMs의 성능 향상을 위해서는 다양한 출처의 데이터가 필요함. 인터넷 데이터만으로는 한계가 있음.
  • 비용 문제: 맞춤형 데이터 생성에는 많은 비용이 소요됨. 이는 소규모 연구소나 기업에게는 큰 부담이 될 수 있음.
  • 합성 데이터의 한계: 합성 데이터는 유용하지만, 실제 인간이 생성한 데이터와는 차이가 있을 수 있음. 이로 인해 모델의 현실성에 한계가 있을 수 있음.
  • 미래 전망: 맞춤형 데이터와 합성 데이터를 활용한 LLMs의 발전은 계속될 것으로 예상됨. 이는 다양한 분야에서 혁신을 가져올 수 있음.
  • 경쟁 상황: OpenAI, Google, Microsoft 등 주요 기업들이 맞춤형 데이터 생성에 투자하고 있어, 경쟁이 치열해질 것으로 보임.

Data wall이라는게 결국 충분한 Compute이 있을때 문제가 되는것이고 오히려 전력 효율과 공급의 문제를 볼때 Compute의 증가의 한계 즉 전력량의 문제가 더 중요해질것

Hacker News 의견

  • 이 글은 몇 가지 좋은 점을 지적하고 있으며, 특히 Phi-3는 매우 흥미로운 기술임. Anthropic, Mistral, FAIR 같은 최신 아키텍처를 언급하지 않은 것이 이상함.
  • 현대 LLM은 웹에서 수집한 데이터만으로 훈련된 것이 아니라, 많은 사람들이 만든 맞춤형 데이터셋으로 훈련됨. 이는 성장 가능성을 보여주지만, 잘못된 방향으로 무한히 확장될 위험이 있음.
  • 인간이 편향된 데이터를 생성하는 것은 문제임. LLM이 독창적인 응답을 생성하지 못하는 예로, 유튜브 구독 버튼을 클릭하도록 유도하는 다양한 방법을 제시하지 못함.
  • LLM 훈련에 사용되는 데이터는 저임금 인도 프로그래머들이 제공한 것임. 현재는 전문가들이 데이터를 제공하지만, 저임금 노동자로 전환될 가능성이 있음.
  • 전문가 시스템이 실패한 이유는 전문가들에게 계속 비용을 지불해야 하기 때문임. OpenAI와 MS의 협력은 AGI(인공지능 일반) 달성을 목표로 하지만, 실질적인 한계가 있음.
  • 멀티모달 모델을 훈련시키는 것이 여전히 도전 과제임. 데이터 부족이 아닌 다른 문제들이 병목 현상을 일으킴.
  • "Ph.D.들이 모르는 질문에 대해 신중하게 불확실성을 표현하는 50,000개의 예시" 같은 데이터셋은 생산 비용보다 더 큰 가치를 가질 수 있음.
  • 기술 투자로 인해 숙련된 작가들이 글을 쓰도록 하는 WPA 같은 프로그램이 생기길 바람. 이는 우수한 인간 저작물의 집합체를 만들 수 있음.
  • AI의 미래 큰 진전은 데이터와 관련이 없을 것 같음.
  • OpenAI 등은 데이터를 비공개로 유지하겠다고 약속한 회사들에게 거액을 지불할 것임. Slack, Atlassian, Dropbox 같은 회사들이 이에 해당됨.