3P by GN⁺ 7일전 | ★ favorite | 댓글 1개
  • 강화학습(Reinforcement Learning) 의 핵심 개념과 응용을 다루는 스탠퍼드 대학의 대학원 수준 강의로, 자율 시스템이 스스로 의사결정을 학습하는 원리를 중심으로 구성
  • 로보틱스, 게임, 소비자 모델링, 헬스케어 등 다양한 분야의 문제를 RL로 정의하고 해결하는 방법을 학습
  • 강의·필기 과제·코딩 과제를 통해 기본 RL 알고리듬부터 딥 강화학습(Deep RL) 까지 실습 중심으로 습득
  • 수강생은 Python, 선형대수, 확률통계, 머신러닝 기초를 사전에 숙지해야 하며, 과제는 Gradescope를 통해 제출
  • RL의 탐색 대 활용 문제, 정책 탐색, 오프라인 RL, AlphaGo 사례 등을 포함한 체계적 커리큘럼으로 구성되어, AI 연구 및 응용 개발의 핵심 역량 강화에 중요

강의 개요 및 운영

  • 인공지능의 목표 달성을 위해 자율적으로 의사결정을 학습하는 시스템의 필요성을 강조
    • 강화학습은 이러한 시스템을 구현하는 강력한 패러다임으로, 다양한 실제 응용에 활용 가능
  • 강의는 화요일과 목요일에 실시간으로 진행되며, 녹화 영상은 Canvas를 통해 제공
  • Ed Forum을 통해 질의응답을 진행하며, Gradescope에서 과제와 퀴즈를 관리
  • Emma Brunskill이 담당 교수이며, 여러 조교진이 지원

선수 과목 요건

  • Python 프로그래밍 능력 필수, 모든 과제는 Python으로 작성
  • 대학 수준의 미적분, 선형대수, 확률통계 지식 필요
  • 머신러닝 기초(예: CS221, CS229) 이해 요구
    • 비용함수 정의, 경사하강법 최적화, 볼록 최적화 개념 포함

학습 목표

  • 강화학습을 비대화적 머신러닝과 구분하는 핵심 특징 정의
  • 주어진 응용 문제를 RL로 공식화하고, 상태공간·행동공간·보상모델을 설계
  • 정책 탐색, Q-learning, MDP 계획 등 주요 알고리듬 구현
  • 후회(regret), 샘플 복잡도, 계산 복잡도, 수렴성 등 평가 기준 이해
  • 탐색 대 활용(exploration vs exploitation) 문제의 다양한 접근법 비교

강의 일정 요약

  • 1주차: 강화학습 소개, Tabular MDP 계획
  • 2주차: 정책 평가, Q-learning 및 함수 근사
  • 3~4주차: 정책 탐색(1~3), 오프라인 RL 및 모방학습
  • 5주차: 중간고사, DPO 주제
  • 6~7주차: 오프라인 RL 심화, 탐색(1~3)
  • 8주차: 탐색(4), 게스트 강연, 프로젝트 마일스톤 제출
  • 9주차: Monte Carlo Tree Search / AlphaGo, 퀴즈
  • 10~11주차: 게스트 강연, 최종 프로젝트 포스터 세션 및 보고서 제출

교재 및 참고 자료

  • 공식 교재는 없으며, 주요 참고서는 Sutton & Barto의 “Reinforcement Learning: An Introduction (2nd Ed.)”
  • 추가 자료로 Wiering & van Otterlo의 Reinforcement Learning: State-of-the-Art, Russell & Norvig의 Artificial Intelligence: A Modern Approach, Goodfellow의 Deep Learning, David Silver의 RL 강의 등이 제시

평가 비율

  • 과제 1: 10%, 과제 2: 18%, 과제 3: 18%
  • 중간고사: 25%, 퀴즈: 5%, 프로젝트: 24%
    • 제안서 1%, 마일스톤 2%, 포스터 5%, 논문 16%
  • 강의 참여 보너스: 최대 0.5%

지각 및 제출 정책

  • 5일의 지각 허용일(late days) 제공
  • 과제별 최대 2일 사용 가능, 초과 시 감점 적용
    • 마감 후 24시간 이내 제출 시 최대 50% 점수, 이후 제출 시 0점 처리
  • 포스터 발표 및 최종 논문에는 지각 허용 불가

시험

  • 중간고사 1회, 퀴즈 1회 진행, 모두 교내 대면 시험
  • 공식 사유 시 원격 또는 대체 시험 가능
  • 허용 자료: 손글씨 노트 1장(중간), 양면 1장(퀴즈)
  • 금지: 계산기, 노트북, 휴대폰, 태블릿 등

과제 및 제출

  • 모든 과제는 Assignments 페이지에 게시
  • 일부 과제는 클라우드 컴퓨팅 자원 사용 가능
  • 제출 지침은 전용 페이지에서 확인

학업 윤리 및 AI 도구 사용

  • 서면 과제는 아이디어 토론 가능하나, 해답은 독립 작성해야 함
  • 코딩 과제는 입출력 결과만 공유 가능, 코드 공유 금지
  • 유사도 검사 소프트웨어로 표절 여부 확인
  • 생성형 AI(GPT-4, Gemini, Copilot 등) 사용은 인간 협업 수준으로 허용
    • 직접적인 코드 생성이나 해답 복사는 금지
    • 사용 시 명시해야 하며, 최종 책임은 본인에게 있음
  • LLM은 프로젝트 공동 저자로 명시 불가

학업 지원 및 평가 이의신청

  • 장애 관련 학업 지원은 Office of Accessible Education(OAE) 을 통해 요청 가능
  • 재채점 요청은 성적 공개 후 3일 이내 Gradescope에서 제출 가능
  • 재검토 시 전체 과제가 다시 평가될 수 있음

학점 및 수강 형태

  • Credit/No Credit 수강 시에도 동일한 평가 기준 적용
  • C- 이상(약 70%) 성취 시 CR 부여

기타

  • SCPD 학생은 전용 이메일을 통해 행정 문의 가능
  • 웹사이트 디자인은 Andrej Karpathy 제작
Hacker News 의견
  • 강의 영상이 공개된 줄 알고 기대했는데, 막상 보니 비공개였음
    팬데믹 시절엔 여러 기관이 자료를 전 세계에 열어줬는데, 요즘은 새 강의뿐 아니라 예전 영상까지 닫히는 추세임
    MIT OCW도 고급 대학원 과정으로 가면 자료가 사라짐
    물론 대학이 동문을 우선시해야 한다는 건 이해하지만, 강의 영상 같은 기본 자료를 공개하는 데는 사실상 비용이 거의 없음
    이런 자료는 세상에 큰 가치를 주는 것 같음

    • 2024년 강의 영상은 YouTube 재생목록에 올라와 있음
    • 새 자료를 공개하면 다른 기관이 표절하기 쉽다는 주장도 있음
      일부 교수들은 강의 슬라이드나 녹화본을 저작권 문제로 공유하지 않으려 함
      하지만 이런 태도는 진정한 명성이 아니라 법적 장벽으로 배타성을 만드는 것 같음
      결국 이득을 보는 건 비싼 등록금을 낸 학생, 변화하기 싫은 강사, 그리고 대학 행정가뿐임
  • “RL은 최악의 학습 방법이지만, 다른 모든 방법보다 낫다”는 말이 있음
    많은 과학자들이 앞으로 10년 뒤엔 RL이 최첨단 모델 학습의 주류가 아닐 거라 생각함
    나도 동의하며, 이 강의를 들으며 다른 패러다임을 고민해보길 권함
    이미지 생성이 diffusion model로, GPT가 RLHF로 도약했듯, RL도 최종 단계는 아닐 것임
    우리의 과제는 그보다 나은 방법을 찾는 것임

    • 사람들은 이미지나 텍스트 생성에만 관심 있다고 가정하지만, RL은 제어 문제에서 탁월함
      충분한 실행 시간이 주어지면 수학적으로 최적 해를 보장함
      그래서 자율주행차는 GPT가 아니라 RL을 씀
    • RL은 사실상 학습 방법이라기보다 데이터셋 생성 방식에 가까움
    • 광고 산업에서도 RL은 여전히 활발히 쓰임
      수백만~수십억 방문을 최적화할 때, contextual multi-armed bandit을 더하면 구매 유도에 매우 효과적임
    • 조합 최적화(combinatorial optimization) 문제나 시뮬레이션 기반 환경에서는 어떤 패러다임이 적합할지 궁금함
    • RLHF를 학생 시절 시험 점수 올리기 위한 전략처럼 생각했음
      하지만 실제 업무에서는 out-of-distribution 일반화가 단순한 보상 기반 학습으로는 불가능하다는 걸 깨달음
  • 영상이 공개되어 있는지 궁금했는데, 봄 학기 강의는 YouTube 재생목록에 있음

  • 전통적인 ML만 배운 입장에서 RL을 일반적인 문제에 어떻게 적용해야 할지 혼란스러움
    예를 들어 BCE loss를 쓰는 이진 분류나 주택 가격 예측 문제에 RL을 억지로 적용하려면 어떻게 해야 할지 모르겠음
    손실 함수 연결 방식이 감이 안 잡힘

    • RL을 쓸지 판단할 때 고려할 세 가지는 ① 각 예제의 손실 정보량, ② 손실 신호로 모델을 조정할 수 있는지, ③ 특징 공간의 복잡도
      주택 가격 예측처럼 명확한 회귀 문제는 기존 방법이 충분히 효과적이며 RL은 불필요함
      반면 바둑처럼 순차적 의사결정 문제는 보상 신호가 희박하고 전략 개선이 불분명해 RL이 적합함
    • 나 같으면 RL을 쓰지 않겠음
      RL은 라벨이 없는 복잡한 상황에서 유용하지만, 체스 같은 문제도 결국 감독학습 문제로 변환하는 게 핵심임
    • RL은 Markov 결정 과정(MDP) 에서 최적 정책을 찾는 기법임
      상태와 행동 공간이 정의된 순차적 의사결정 문제에 적합하지만, 이진 분류나 회귀에는 맞지 않음
      RL은 미래 결과를 알 수 없는 상황에서 현재 결정을 내려야 하는 문제에 강함
  • RL은 불안정하고 수렴이 어렵다는 평이 많음
    Stanford 연구진도 인정함
    해결책이 있는지 궁금함

    • FlowRL이 한 가지 대안임
      단일 최대값이 아닌 보상 분포 전체를 학습함으로써 안정성을 높임
  • Ilya의 팟캐스트를 들은 뒤라면 이번 강의 제목이 흥미롭게 느껴짐

    • “결국 AI 겨울이 오는 건가?”라는 농담이 나옴
    • 어떤 팟캐스트를 말하는 건지 궁금하다는 질문도 있었음
  • RL 관련 추천 도서를 찾고 있음
    이미 딥러닝은 충분히 공부했음
    Sutton의 Reinforcement Learning, Kevin Patrick Murphy의 Reinforcement Learning, an overview, Sebastian Raschka의 신간 등을 검토 중임

    • Kochenderfer 등의 Algorithms for Decision Making도 RL과 관련된 접근을 다룸
      무료 PDF는 algorithmsbook.com에서 받을 수 있음