1P by neo 19일전 | favorite | 댓글 1개
  • 주말에 몇 시간을 투자하여 대형 언어 모델(LLM)을 이해하고 싶다면, 구현, 훈련 및 사용에 관한 3시간 코딩 워크숍 프레젠테이션을 준비했음
  • 아래는 비디오에서 다루는 내용을 보여주는 목차임 (비디오 자체에는 관심 있는 주제로 바로 이동할 수 있는 클릭 가능한 챕터 마크가 있음)

목차

  • 0:00 – 워크숍 개요

  • 2:17 – Part 1: LLM 소개

  • 9:14 – 워크숍 자료

  • 10:48 – Part 2: LLM 입력 데이터 이해하기

  • 23:25 – 간단한 토크나이저 클래스

  • 41:03 – Part 3: LLM 아키텍처 코딩하기

  • 45:01 – GPT-2와 Llama 2

  • 1:07:11 – Part 4: 사전 훈련

  • 1:29:37 – Part 5.1: 사전 훈련된 가중치 로딩

  • 1:45:12 – Part 5.2: LitGPT를 통한 사전 훈련된 가중치

  • 1:53:09 – Part 6.1: 지침 미세 조정

  • 2:08:21 – Part 6.2: LitGPT를 통한 지침 미세 조정

  • 2:26:45 – Part 6.3: 벤치마크 평가

  • 2:36:55 – Part 6.4: 대화 성능 평가

  • 2:42:40 – 결론

  • 평소의 텍스트 기반 콘텐츠와는 약간 다르지만, 몇 달 전에 했을 때 매우 좋은 반응을 얻어 다시 한 번 해보면 좋을 것 같았음

  • 즐거운 시청 되길 바람!

참고 자료

  1. Build an LLM from Scratch 책
  2. Build an LLM from Scratch GitHub 저장소
  3. 워크숍 코드가 포함된 GitHub 저장소
  4. 이 워크숍을 위한 Lightning Studio
  5. LitGPT GitHub 저장소

Ahead of AI 구독

  • Sebastian Raschka가 2년 전에 시작한 프로젝트
  • Ahead AI는 머신러닝 및 AI 연구를 전문으로 하며, 끊임없이 변화하는 분야에서 앞서 나가고자 하는 수만 명의 연구자와 실무자들이 읽고 있음

GN⁺의 정리

  • 이 워크숍은 LLM을 처음부터 구현하고 훈련하는 방법을 배우고자 하는 사람들에게 매우 유용함
  • GPT-2와 Llama 2 같은 모델을 다루며, 사전 훈련된 가중치를 로딩하고 지침 미세 조정을 수행하는 방법을 설명함
  • 머신러닝과 AI 연구에 관심 있는 사람들에게 매우 흥미롭고 도움이 될 수 있음
  • 비슷한 기능을 가진 다른 프로젝트로는 Hugging Face의 Transformers 라이브러리와 OpenAI의 GPT 모델이 있음
Hacker News 의견
  • "기본으로 돌아가는 것이 항상 좋음"이라는 의견과 함께 공유에 감사함

  • "무지해서 미안하지만, 이것이 Andrej Karpathy의 https://www.youtube.com/watch?v=kCc8FmEb1nY와 다른 것인지 궁금함"이라는 질문

    • "어쨌든 오늘 밤 자기 전에 볼 예정임"이라는 의견
  • "Sebastian의 글이 좋음"이라는 의견과 함께 책을 기대함

    • LLM의 구성에 대한 많은 세부사항이 있으며, Llama와 OpenAI가 훈련 데이터를 어떻게 정리하고 구조화하는지에 대해 더 확장해주길 바람
    • "이것이 장기적으로 중요한 전투가 될 것 같음"이라는 의견