OpenAI Gym 시대의 강화 학습(RL)은 초보자에게 접근하기 쉬운 점이 큰 장점이었음. 작은 환경에서 취미로 RL을 배우고 Cartpole 같은 간단한 문제에 적용해 볼 수 있었음. LLMs와 관련된 비슷한 접근 가능한 RL 과제나 학습 환경이 있는지 궁금함. 일반적인 MacBook Air로 LLM x RL 분야에서 할 수 있는 것이 있는지 궁금함
Pieter Abbeel의 Deep RL 기초에 대한 6강 시리즈도 매우 추천됨. 좋은 개요와 직관을 제공함
강화 학습과 관련 주제에 대한 최고의 강의는 Dimitris Bertsekas의 강의임
RL에 대한 훌륭한 시각적 개요를 제공하는 다이어그램과 30분 소개 유튜브 비디오도 매우 추천됨
엔지니어링, 물류, 의학 분야의 실제 문제를 해결하기 위해 RL을 사용하는 하이퍼 성장 스타트업이 많이 생길 것으로 기대됨
LLMs가 현재 많은 주목을 받고 있지만, 벤처 캐피털이 RL 회사에 특별히 관심을 두지 않는 것이 놀라움
RL에 대한 또 다른 훌륭한 자료는 Mykel Kochenderfer의 교과서 모음임
Murphy의 RL에 초점을 맞춘 진행 중인 교과서도 언급할 가치가 있음
관심 있는 사람들을 위해 Sutton의 책 대부분을 구현한 GitHub 리포지토리가 있음
MinRL의 코드도 링크되어 있어 감사함. RL 연구를 하면서 비교 연구를 재현하고 자신의 기여를 검증하는 것이 큰 문제였음. 시각화 도구와 관찰만으로 검증할 수 있는 그리드월드 샌드박스를 갖춘 간단한 라이브러리가 매우 유용함
이 책은 독자가 확률 이론과 선형 대수에 대한 지식이 필요하다고 함. 이런 문구는 항상 소금 한 알과 수학 덕후들이 썼다는 이해와 함께 받아들여야 함. 평균적인 수학 실력을 가진 평균적인 프로그래머는 주의해야 함
이 자료를 이해하는 것에서 이 분야의 직업을 얻는 방법을 모르겠음. 현재는 소프트웨어 엔지니어(SWE)로 머물러 있음
Hacker News 의견
OpenAI Gym 시대의 강화 학습(RL)은 초보자에게 접근하기 쉬운 점이 큰 장점이었음. 작은 환경에서 취미로 RL을 배우고 Cartpole 같은 간단한 문제에 적용해 볼 수 있었음. LLMs와 관련된 비슷한 접근 가능한 RL 과제나 학습 환경이 있는지 궁금함. 일반적인 MacBook Air로 LLM x RL 분야에서 할 수 있는 것이 있는지 궁금함
RL에 대한 또 다른 훌륭한 자료는 Mykel Kochenderfer의 교과서 모음임
이 책은 독자가 확률 이론과 선형 대수에 대한 지식이 필요하다고 함. 이런 문구는 항상 소금 한 알과 수학 덕후들이 썼다는 이해와 함께 받아들여야 함. 평균적인 수학 실력을 가진 평균적인 프로그래머는 주의해야 함
이 자료를 이해하는 것에서 이 분야의 직업을 얻는 방법을 모르겠음. 현재는 소프트웨어 엔지니어(SWE)로 머물러 있음