강의 영상이 공개된 줄 알고 기대했는데, 막상 보니 비공개였음
팬데믹 시절엔 여러 기관이 자료를 전 세계에 열어줬는데, 요즘은 새 강의뿐 아니라 예전 영상까지 닫히는 추세임
MIT OCW도 고급 대학원 과정으로 가면 자료가 사라짐
물론 대학이 동문을 우선시해야 한다는 건 이해하지만, 강의 영상 같은 기본 자료를 공개하는 데는 사실상 비용이 거의 없음
이런 자료는 세상에 큰 가치를 주는 것 같음
새 자료를 공개하면 다른 기관이 표절하기 쉽다는 주장도 있음
일부 교수들은 강의 슬라이드나 녹화본을 저작권 문제로 공유하지 않으려 함
하지만 이런 태도는 진정한 명성이 아니라 법적 장벽으로 배타성을 만드는 것 같음
결국 이득을 보는 건 비싼 등록금을 낸 학생, 변화하기 싫은 강사, 그리고 대학 행정가뿐임
“RL은 최악의 학습 방법이지만, 다른 모든 방법보다 낫다”는 말이 있음
많은 과학자들이 앞으로 10년 뒤엔 RL이 최첨단 모델 학습의 주류가 아닐 거라 생각함
나도 동의하며, 이 강의를 들으며 다른 패러다임을 고민해보길 권함
이미지 생성이 diffusion model로, GPT가 RLHF로 도약했듯, RL도 최종 단계는 아닐 것임
우리의 과제는 그보다 나은 방법을 찾는 것임
사람들은 이미지나 텍스트 생성에만 관심 있다고 가정하지만, RL은 제어 문제에서 탁월함
충분한 실행 시간이 주어지면 수학적으로 최적 해를 보장함
그래서 자율주행차는 GPT가 아니라 RL을 씀
RL은 사실상 학습 방법이라기보다 데이터셋 생성 방식에 가까움
광고 산업에서도 RL은 여전히 활발히 쓰임
수백만~수십억 방문을 최적화할 때, contextual multi-armed bandit을 더하면 구매 유도에 매우 효과적임
조합 최적화(combinatorial optimization) 문제나 시뮬레이션 기반 환경에서는 어떤 패러다임이 적합할지 궁금함
RLHF를 학생 시절 시험 점수 올리기 위한 전략처럼 생각했음
하지만 실제 업무에서는 out-of-distribution 일반화가 단순한 보상 기반 학습으로는 불가능하다는 걸 깨달음
전통적인 ML만 배운 입장에서 RL을 일반적인 문제에 어떻게 적용해야 할지 혼란스러움
예를 들어 BCE loss를 쓰는 이진 분류나 주택 가격 예측 문제에 RL을 억지로 적용하려면 어떻게 해야 할지 모르겠음
손실 함수 연결 방식이 감이 안 잡힘
RL을 쓸지 판단할 때 고려할 세 가지는 ① 각 예제의 손실 정보량, ② 손실 신호로 모델을 조정할 수 있는지, ③ 특징 공간의 복잡도임
주택 가격 예측처럼 명확한 회귀 문제는 기존 방법이 충분히 효과적이며 RL은 불필요함
반면 바둑처럼 순차적 의사결정 문제는 보상 신호가 희박하고 전략 개선이 불분명해 RL이 적합함
나 같으면 RL을 쓰지 않겠음
RL은 라벨이 없는 복잡한 상황에서 유용하지만, 체스 같은 문제도 결국 감독학습 문제로 변환하는 게 핵심임
RL은 Markov 결정 과정(MDP) 에서 최적 정책을 찾는 기법임
상태와 행동 공간이 정의된 순차적 의사결정 문제에 적합하지만, 이진 분류나 회귀에는 맞지 않음
RL은 미래 결과를 알 수 없는 상황에서 현재 결정을 내려야 하는 문제에 강함
FlowRL이 한 가지 대안임
단일 최대값이 아닌 보상 분포 전체를 학습함으로써 안정성을 높임
Ilya의 팟캐스트를 들은 뒤라면 이번 강의 제목이 흥미롭게 느껴짐
“결국 AI 겨울이 오는 건가?”라는 농담이 나옴
어떤 팟캐스트를 말하는 건지 궁금하다는 질문도 있었음
RL 관련 추천 도서를 찾고 있음
이미 딥러닝은 충분히 공부했음
Sutton의 Reinforcement Learning, Kevin Patrick Murphy의 Reinforcement Learning, an overview, Sebastian Raschka의 신간 등을 검토 중임
Kochenderfer 등의 Algorithms for Decision Making도 RL과 관련된 접근을 다룸
무료 PDF는 algorithmsbook.com에서 받을 수 있음
Hacker News 의견
강의 영상이 공개된 줄 알고 기대했는데, 막상 보니 비공개였음
팬데믹 시절엔 여러 기관이 자료를 전 세계에 열어줬는데, 요즘은 새 강의뿐 아니라 예전 영상까지 닫히는 추세임
MIT OCW도 고급 대학원 과정으로 가면 자료가 사라짐
물론 대학이 동문을 우선시해야 한다는 건 이해하지만, 강의 영상 같은 기본 자료를 공개하는 데는 사실상 비용이 거의 없음
이런 자료는 세상에 큰 가치를 주는 것 같음
일부 교수들은 강의 슬라이드나 녹화본을 저작권 문제로 공유하지 않으려 함
하지만 이런 태도는 진정한 명성이 아니라 법적 장벽으로 배타성을 만드는 것 같음
결국 이득을 보는 건 비싼 등록금을 낸 학생, 변화하기 싫은 강사, 그리고 대학 행정가뿐임
“RL은 최악의 학습 방법이지만, 다른 모든 방법보다 낫다”는 말이 있음
많은 과학자들이 앞으로 10년 뒤엔 RL이 최첨단 모델 학습의 주류가 아닐 거라 생각함
나도 동의하며, 이 강의를 들으며 다른 패러다임을 고민해보길 권함
이미지 생성이 diffusion model로, GPT가 RLHF로 도약했듯, RL도 최종 단계는 아닐 것임
우리의 과제는 그보다 나은 방법을 찾는 것임
충분한 실행 시간이 주어지면 수학적으로 최적 해를 보장함
그래서 자율주행차는 GPT가 아니라 RL을 씀
수백만~수십억 방문을 최적화할 때, contextual multi-armed bandit을 더하면 구매 유도에 매우 효과적임
하지만 실제 업무에서는 out-of-distribution 일반화가 단순한 보상 기반 학습으로는 불가능하다는 걸 깨달음
영상이 공개되어 있는지 궁금했는데, 봄 학기 강의는 YouTube 재생목록에 있음
전통적인 ML만 배운 입장에서 RL을 일반적인 문제에 어떻게 적용해야 할지 혼란스러움
예를 들어 BCE loss를 쓰는 이진 분류나 주택 가격 예측 문제에 RL을 억지로 적용하려면 어떻게 해야 할지 모르겠음
손실 함수 연결 방식이 감이 안 잡힘
주택 가격 예측처럼 명확한 회귀 문제는 기존 방법이 충분히 효과적이며 RL은 불필요함
반면 바둑처럼 순차적 의사결정 문제는 보상 신호가 희박하고 전략 개선이 불분명해 RL이 적합함
RL은 라벨이 없는 복잡한 상황에서 유용하지만, 체스 같은 문제도 결국 감독학습 문제로 변환하는 게 핵심임
상태와 행동 공간이 정의된 순차적 의사결정 문제에 적합하지만, 이진 분류나 회귀에는 맞지 않음
RL은 미래 결과를 알 수 없는 상황에서 현재 결정을 내려야 하는 문제에 강함
RL은 불안정하고 수렴이 어렵다는 평이 많음
Stanford 연구진도 인정함
해결책이 있는지 궁금함
단일 최대값이 아닌 보상 분포 전체를 학습함으로써 안정성을 높임
Ilya의 팟캐스트를 들은 뒤라면 이번 강의 제목이 흥미롭게 느껴짐
RL 관련 추천 도서를 찾고 있음
이미 딥러닝은 충분히 공부했음
Sutton의 Reinforcement Learning, Kevin Patrick Murphy의 Reinforcement Learning, an overview, Sebastian Raschka의 신간 등을 검토 중임
무료 PDF는 algorithmsbook.com에서 받을 수 있음