기초부터 LLMs 구축해보기 : 3시간 코딩 워크숍
(magazine.sebastianraschka.com)- 주말에 몇 시간을 투자하여 대형 언어 모델(LLM)을 이해하고 싶다면, 구현, 훈련 및 사용에 관한 3시간 코딩 워크숍 프레젠테이션을 준비했음
 - 아래는 비디오에서 다루는 내용을 보여주는 목차임 (비디오 자체에는 관심 있는 주제로 바로 이동할 수 있는 클릭 가능한 챕터 마크가 있음)
 
목차
- 
0:00 – 워크숍 개요
 - 
2:17 – Part 1: LLM 소개
 - 
9:14 – 워크숍 자료
 - 
10:48 – Part 2: LLM 입력 데이터 이해하기
 - 
23:25 – 간단한 토크나이저 클래스
 - 
41:03 – Part 3: LLM 아키텍처 코딩하기
 - 
45:01 – GPT-2와 Llama 2
 - 
1:07:11 – Part 4: 사전 훈련
 - 
1:29:37 – Part 5.1: 사전 훈련된 가중치 로딩
 - 
1:45:12 – Part 5.2: LitGPT를 통한 사전 훈련된 가중치
 - 
1:53:09 – Part 6.1: 지침 미세 조정
 - 
2:08:21 – Part 6.2: LitGPT를 통한 지침 미세 조정
 - 
2:26:45 – Part 6.3: 벤치마크 평가
 - 
2:36:55 – Part 6.4: 대화 성능 평가
 - 
2:42:40 – 결론
 - 
평소의 텍스트 기반 콘텐츠와는 약간 다르지만, 몇 달 전에 했을 때 매우 좋은 반응을 얻어 다시 한 번 해보면 좋을 것 같았음
 - 
즐거운 시청 되길 바람!
 
참고 자료
- Build an LLM from Scratch 책
 - Build an LLM from Scratch GitHub 저장소
 - 워크숍 코드가 포함된 GitHub 저장소
 - 이 워크숍을 위한 Lightning Studio
 - LitGPT GitHub 저장소
 
Ahead of AI 구독
- Sebastian Raschka가 2년 전에 시작한 프로젝트
 - Ahead AI는 머신러닝 및 AI 연구를 전문으로 하며, 끊임없이 변화하는 분야에서 앞서 나가고자 하는 수만 명의 연구자와 실무자들이 읽고 있음
 
GN⁺의 정리
- 이 워크숍은 LLM을 처음부터 구현하고 훈련하는 방법을 배우고자 하는 사람들에게 매우 유용함
 - GPT-2와 Llama 2 같은 모델을 다루며, 사전 훈련된 가중치를 로딩하고 지침 미세 조정을 수행하는 방법을 설명함
 - 머신러닝과 AI 연구에 관심 있는 사람들에게 매우 흥미롭고 도움이 될 수 있음
 - 비슷한 기능을 가진 다른 프로젝트로는 Hugging Face의 Transformers 라이브러리와 OpenAI의 GPT 모델이 있음
 
Hacker News 의견
- 
"기본으로 돌아가는 것이 항상 좋음"이라는 의견과 함께 공유에 감사함
- 추가로 좋은 리소스로 https://jaykmody.com/blog/gpt-from-scratch/를 추천함
 
 - 
"무지해서 미안하지만, 이것이 Andrej Karpathy의 https://www.youtube.com/watch?v=kCc8FmEb1nY와 다른 것인지 궁금함"이라는 질문
- "어쨌든 오늘 밤 자기 전에 볼 예정임"이라는 의견
 
 - 
"Sebastian의 글이 좋음"이라는 의견과 함께 책을 기대함
- LLM의 구성에 대한 많은 세부사항이 있으며, Llama와 OpenAI가 훈련 데이터를 어떻게 정리하고 구조화하는지에 대해 더 확장해주길 바람
 - "이것이 장기적으로 중요한 전투가 될 것 같음"이라는 의견