강화 학습(RL)의 수학적 기초 : 책과 유튜브 강의
(github.com/MathFoundationRL)- 이 책은 강화 학습의 기본 개념, 문제, 알고리듬을 수학적으로 친근하게 소개하는 것을 목표로 함
- 알고리듬의 절차뿐만 아니라 왜 설계되었고 효과적인지 이해할 수 있도록 수학적 관점에서 설명
- 수학의 깊이는 적절한 수준으로 조절되어 있으며, 독자가 선택적으로 읽을 수 있는 예시를 제공
- 알고리듬의 핵심 아이디어를 복잡한 요소와 분리하여 독자가 더 잘 이해할 수 있도록 함
- 각 장은 이전 장을 기반으로 구성되어 있으며, 다음 장을 위한 기초를 제공
내용
- 이 책은 10개의 장으로 구성되어 있으며, 기본 도구와 알고리듬에 관한 두 부분으로 나뉨.
- 각 장은 상호 연관되어 있으며, 초반 장을 먼저 공부하는 것이 필요함.
독자층
- 이 책은 강화 학습에 관심 있는 학부 고학년, 대학원생, 연구자 및 실무자를 대상으로 함.
- 강화 학습에 대한 배경 지식이 없어도 이해할 수 있도록 기본 개념부터 시작함.
- 확률 이론과 선형 대수에 대한 지식이 필요하며, 필요한 수학 기초는 부록에 포함되어 있음.
강의 비디오
- 책과 강의 비디오를 결합하여 더 나은 학습을 할 수 있음.
- 중국어 강의 비디오는 Bilibili 채널과 유튜브 채널에서 확인 가능하며, 2025년 2월까지 1,300,000회 이상의 조회수를 기록함.
- 영어 강의 비디오는 유튜브에 업로드됨.
저자 소개
- 저자 정보는 홈페이지와 연구 그룹 웹사이트에서 확인 가능.
- 2019년부터 강화 학습에 관한 대학원 과정을 가르치고 있으며, 이 책은 강의 노트로 준비됨.
- 이 책이 독자들이 강화 학습 분야에 원활하게 진입하는 데 도움이 되기를 희망함.
인용
- 책 제목: "Mathematical Foundations of Reinforcement Learning"
- 저자: S. Zhao
- 출판 연도: 2025
- 출판사: Springer Nature Press 및 Tsinghua University Press
업데이트 기록
- 2025년 2월: 5,000+ 스타 획득
- 2024년 12월: 4,000+ 스타 획득
- 2024년 10월: 책 표지 디자인 완료
- 2024년 9월: Springer 출판 전 최종 수정
- 2024년 8월: 3,000+ 스타 획득 및 코드 추가
- 2024년 6월: 출판 전 최종 수정
- 2024년 4월: 그리드 월드 환경 코드 추가
- 2024년 3월: 2,000 스타 획득
- 2024년 3월: 세 번째 버전의 초안 온라인
- 2023년 9월: 1,000+ 스타 획득
- 2023년 8월: 두 번째 버전의 초안 온라인
- 2022년 11월: Springer Nature 및 Tsinghua University Press와 공동 출판 예정
- 2022년 10월: 강의 노트 및 비디오 온라인
- 2022년 8월: 첫 번째 초안 온라인
Hacker News 의견
-
OpenAI Gym 시대의 강화 학습(RL)은 초보자에게 접근하기 쉬운 점이 큰 장점이었음. 작은 환경에서 취미로 RL을 배우고 Cartpole 같은 간단한 문제에 적용해 볼 수 있었음. LLMs와 관련된 비슷한 접근 가능한 RL 과제나 학습 환경이 있는지 궁금함. 일반적인 MacBook Air로 LLM x RL 분야에서 할 수 있는 것이 있는지 궁금함
- Pieter Abbeel의 Deep RL 기초에 대한 6강 시리즈도 매우 추천됨. 좋은 개요와 직관을 제공함
- 강화 학습과 관련 주제에 대한 최고의 강의는 Dimitris Bertsekas의 강의임
- RL에 대한 훌륭한 시각적 개요를 제공하는 다이어그램과 30분 소개 유튜브 비디오도 매우 추천됨
- 엔지니어링, 물류, 의학 분야의 실제 문제를 해결하기 위해 RL을 사용하는 하이퍼 성장 스타트업이 많이 생길 것으로 기대됨
- LLMs가 현재 많은 주목을 받고 있지만, 벤처 캐피털이 RL 회사에 특별히 관심을 두지 않는 것이 놀라움
-
RL에 대한 또 다른 훌륭한 자료는 Mykel Kochenderfer의 교과서 모음임
- Murphy의 RL에 초점을 맞춘 진행 중인 교과서도 언급할 가치가 있음
- 관심 있는 사람들을 위해 Sutton의 책 대부분을 구현한 GitHub 리포지토리가 있음
- MinRL의 코드도 링크되어 있어 감사함. RL 연구를 하면서 비교 연구를 재현하고 자신의 기여를 검증하는 것이 큰 문제였음. 시각화 도구와 관찰만으로 검증할 수 있는 그리드월드 샌드박스를 갖춘 간단한 라이브러리가 매우 유용함
-
이 책은 독자가 확률 이론과 선형 대수에 대한 지식이 필요하다고 함. 이런 문구는 항상 소금 한 알과 수학 덕후들이 썼다는 이해와 함께 받아들여야 함. 평균적인 수학 실력을 가진 평균적인 프로그래머는 주의해야 함
-
이 자료를 이해하는 것에서 이 분야의 직업을 얻는 방법을 모르겠음. 현재는 소프트웨어 엔지니어(SWE)로 머물러 있음