GN⁺: 기초부터 LLMs 구축해보기 : 3시간 코딩 워크숍
(magazine.sebastianraschka.com)- 주말에 몇 시간을 투자하여 대형 언어 모델(LLM)을 이해하고 싶다면, 구현, 훈련 및 사용에 관한 3시간 코딩 워크숍 프레젠테이션을 준비했음
- 아래는 비디오에서 다루는 내용을 보여주는 목차임 (비디오 자체에는 관심 있는 주제로 바로 이동할 수 있는 클릭 가능한 챕터 마크가 있음)
목차
-
0:00 – 워크숍 개요
-
2:17 – Part 1: LLM 소개
-
9:14 – 워크숍 자료
-
10:48 – Part 2: LLM 입력 데이터 이해하기
-
23:25 – 간단한 토크나이저 클래스
-
41:03 – Part 3: LLM 아키텍처 코딩하기
-
45:01 – GPT-2와 Llama 2
-
1:07:11 – Part 4: 사전 훈련
-
1:29:37 – Part 5.1: 사전 훈련된 가중치 로딩
-
1:45:12 – Part 5.2: LitGPT를 통한 사전 훈련된 가중치
-
1:53:09 – Part 6.1: 지침 미세 조정
-
2:08:21 – Part 6.2: LitGPT를 통한 지침 미세 조정
-
2:26:45 – Part 6.3: 벤치마크 평가
-
2:36:55 – Part 6.4: 대화 성능 평가
-
2:42:40 – 결론
-
평소의 텍스트 기반 콘텐츠와는 약간 다르지만, 몇 달 전에 했을 때 매우 좋은 반응을 얻어 다시 한 번 해보면 좋을 것 같았음
-
즐거운 시청 되길 바람!
참고 자료
- Build an LLM from Scratch 책
- Build an LLM from Scratch GitHub 저장소
- 워크숍 코드가 포함된 GitHub 저장소
- 이 워크숍을 위한 Lightning Studio
- LitGPT GitHub 저장소
Ahead of AI 구독
- Sebastian Raschka가 2년 전에 시작한 프로젝트
- Ahead AI는 머신러닝 및 AI 연구를 전문으로 하며, 끊임없이 변화하는 분야에서 앞서 나가고자 하는 수만 명의 연구자와 실무자들이 읽고 있음
GN⁺의 정리
- 이 워크숍은 LLM을 처음부터 구현하고 훈련하는 방법을 배우고자 하는 사람들에게 매우 유용함
- GPT-2와 Llama 2 같은 모델을 다루며, 사전 훈련된 가중치를 로딩하고 지침 미세 조정을 수행하는 방법을 설명함
- 머신러닝과 AI 연구에 관심 있는 사람들에게 매우 흥미롭고 도움이 될 수 있음
- 비슷한 기능을 가진 다른 프로젝트로는 Hugging Face의 Transformers 라이브러리와 OpenAI의 GPT 모델이 있음
Hacker News 의견
-
"기본으로 돌아가는 것이 항상 좋음"이라는 의견과 함께 공유에 감사함
- 추가로 좋은 리소스로 https://jaykmody.com/blog/gpt-from-scratch/를 추천함
-
"무지해서 미안하지만, 이것이 Andrej Karpathy의 https://www.youtube.com/watch?v=kCc8FmEb1nY와 다른 것인지 궁금함"이라는 질문
- "어쨌든 오늘 밤 자기 전에 볼 예정임"이라는 의견
-
"Sebastian의 글이 좋음"이라는 의견과 함께 책을 기대함
- LLM의 구성에 대한 많은 세부사항이 있으며, Llama와 OpenAI가 훈련 데이터를 어떻게 정리하고 구조화하는지에 대해 더 확장해주길 바람
- "이것이 장기적으로 중요한 전투가 될 것 같음"이라는 의견