# CS234: 강화학습 겨울학기 2025

> Clean Markdown view of GeekNews topic #24670. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24670](https://news.hada.io/topic?id=24670)
- GeekNews Markdown: [https://news.hada.io/topic/24670.md](https://news.hada.io/topic/24670.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-11-28T08:34:23+09:00
- Updated: 2025-11-28T08:34:23+09:00
- Original source: [web.stanford.edu](https://web.stanford.edu/class/cs234/)
- Points: 3
- Comments: 1

## Topic Body

- **강화학습(Reinforcement Learning)** 의 핵심 개념과 응용을 다루는 스탠퍼드 대학의 대학원 수준 강의로, 자율 시스템이 스스로 의사결정을 학습하는 원리를 중심으로 구성  
- **로보틱스, 게임, 소비자 모델링, 헬스케어** 등 다양한 분야의 문제를 RL로 정의하고 해결하는 방법을 학습  
- **강의·필기 과제·코딩 과제**를 통해 기본 RL 알고리듬부터 **딥 강화학습(Deep RL)** 까지 실습 중심으로 습득  
- 수강생은 **Python, 선형대수, 확률통계, 머신러닝 기초**를 사전에 숙지해야 하며, 과제는 Gradescope를 통해 제출  
- RL의 **탐색 대 활용 문제**, **정책 탐색**, **오프라인 RL**, **AlphaGo 사례** 등을 포함한 체계적 커리큘럼으로 구성되어, AI 연구 및 응용 개발의 핵심 역량 강화에 중요  

---

### 강의 개요 및 운영
- 인공지능의 목표 달성을 위해 **자율적으로 의사결정을 학습하는 시스템**의 필요성을 강조  
  - 강화학습은 이러한 시스템을 구현하는 강력한 패러다임으로, 다양한 실제 응용에 활용 가능  
- 강의는 **화요일과 목요일**에 실시간으로 진행되며, 녹화 영상은 Canvas를 통해 제공  
- **Ed Forum**을 통해 질의응답을 진행하며, **Gradescope**에서 과제와 퀴즈를 관리  
- **Emma Brunskill**이 담당 교수이며, 여러 조교진이 지원  

### 선수 과목 요건
- **Python 프로그래밍 능력** 필수, 모든 과제는 Python으로 작성  
- **대학 수준의 미적분, 선형대수, 확률통계** 지식 필요  
- **머신러닝 기초**(예: CS221, CS229) 이해 요구  
  - 비용함수 정의, 경사하강법 최적화, 볼록 최적화 개념 포함  

### 학습 목표
- 강화학습을 **비대화적 머신러닝과 구분하는 핵심 특징 정의**  
- 주어진 응용 문제를 RL로 공식화하고, **상태공간·행동공간·보상모델**을 설계  
- **정책 탐색, Q-learning, MDP 계획** 등 주요 알고리듬 구현  
- **후회(regret), 샘플 복잡도, 계산 복잡도, 수렴성** 등 평가 기준 이해  
- **탐색 대 활용(exploration vs exploitation)** 문제의 다양한 접근법 비교  

### 강의 일정 요약
- **1주차:** 강화학습 소개, Tabular MDP 계획  
- **2주차:** 정책 평가, Q-learning 및 함수 근사  
- **3~4주차:** 정책 탐색(1~3), 오프라인 RL 및 모방학습  
- **5주차:** 중간고사, DPO 주제  
- **6~7주차:** 오프라인 RL 심화, 탐색(1~3)  
- **8주차:** 탐색(4), 게스트 강연, 프로젝트 마일스톤 제출  
- **9주차:** **Monte Carlo Tree Search / AlphaGo**, 퀴즈  
- **10~11주차:** 게스트 강연, **최종 프로젝트 포스터 세션 및 보고서 제출**  

### 교재 및 참고 자료
- 공식 교재는 없으며, 주요 참고서는 **Sutton & Barto의 “Reinforcement Learning: An Introduction (2nd Ed.)”**  
- 추가 자료로 **Wiering & van Otterlo의 Reinforcement Learning: State-of-the-Art**, **Russell & Norvig의 Artificial Intelligence: A Modern Approach**, **Goodfellow의 Deep Learning**, **David Silver의 RL 강의** 등이 제시  

### 평가 비율
- **과제 1:** 10%, **과제 2:** 18%, **과제 3:** 18%  
- **중간고사:** 25%, **퀴즈:** 5%, **프로젝트:** 24%  
  - 제안서 1%, 마일스톤 2%, 포스터 5%, 논문 16%  
- **강의 참여 보너스:** 최대 0.5%  

### 지각 및 제출 정책
- 총 **5일의 지각 허용일(late days)** 제공  
- 과제별 최대 2일 사용 가능, 초과 시 감점 적용  
  - 마감 후 24시간 이내 제출 시 최대 50% 점수, 이후 제출 시 0점 처리  
- 포스터 발표 및 최종 논문에는 지각 허용 불가  

### 시험
- **중간고사 1회, 퀴즈 1회** 진행, 모두 교내 대면 시험  
- 공식 사유 시 원격 또는 대체 시험 가능  
- **허용 자료:** 손글씨 노트 1장(중간), 양면 1장(퀴즈)  
- **금지:** 계산기, 노트북, 휴대폰, 태블릿 등  

### 과제 및 제출
- 모든 과제는 **Assignments 페이지**에 게시  
- 일부 과제는 **클라우드 컴퓨팅 자원** 사용 가능  
- 제출 지침은 전용 페이지에서 확인  

### 학업 윤리 및 AI 도구 사용
- 서면 과제는 아이디어 토론 가능하나, **해답은 독립 작성**해야 함  
- 코딩 과제는 **입출력 결과만 공유 가능**, 코드 공유 금지  
- **유사도 검사 소프트웨어**로 표절 여부 확인  
- **생성형 AI(GPT-4, Gemini, Copilot 등)** 사용은 인간 협업 수준으로 허용  
  - 직접적인 코드 생성이나 해답 복사는 금지  
  - 사용 시 명시해야 하며, 최종 책임은 본인에게 있음  
- **LLM은 프로젝트 공동 저자로 명시 불가**  

### 학업 지원 및 평가 이의신청
- 장애 관련 학업 지원은 **Office of Accessible Education(OAE)** 을 통해 요청 가능  
- **재채점 요청**은 성적 공개 후 3일 이내 Gradescope에서 제출 가능  
- 재검토 시 전체 과제가 다시 평가될 수 있음  

### 학점 및 수강 형태
- **Credit/No Credit** 수강 시에도 동일한 평가 기준 적용  
- **C- 이상(약 70%)** 성취 시 CR 부여  

### 기타
- **SCPD 학생**은 전용 이메일을 통해 행정 문의 가능  
- 웹사이트 디자인은 **Andrej Karpathy** 제작

## Comments


### Comment 46899

- Author: neo
- Created: 2025-11-28T08:34:24+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=46052685) 
- 강의 영상이 공개된 줄 알고 기대했는데, 막상 보니 **비공개**였음  
  팬데믹 시절엔 여러 기관이 자료를 전 세계에 열어줬는데, 요즘은 새 강의뿐 아니라 예전 영상까지 닫히는 추세임  
  MIT OCW도 고급 대학원 과정으로 가면 자료가 사라짐  
  물론 대학이 동문을 우선시해야 한다는 건 이해하지만, 강의 영상 같은 기본 자료를 공개하는 데는 사실상 **비용이 거의 없음**  
  이런 자료는 세상에 큰 가치를 주는 것 같음
  - 2024년 강의 영상은 [YouTube 재생목록](https://youtube.com/playlist?list=PLoROMvodv4rN4wG6Nk6sNpTEbuOSosZdX)에 올라와 있음
  - 새 자료를 공개하면 다른 기관이 **표절**하기 쉽다는 주장도 있음  
    일부 교수들은 강의 슬라이드나 녹화본을 저작권 문제로 공유하지 않으려 함  
    하지만 이런 태도는 진정한 명성이 아니라 **법적 장벽**으로 배타성을 만드는 것 같음  
    결국 이득을 보는 건 비싼 등록금을 낸 학생, 변화하기 싫은 강사, 그리고 대학 행정가뿐임

- “RL은 최악의 학습 방법이지만, 다른 모든 방법보다 낫다”는 말이 있음  
  많은 과학자들이 앞으로 10년 뒤엔 RL이 **최첨단 모델 학습의 주류**가 아닐 거라 생각함  
  나도 동의하며, 이 강의를 들으며 다른 패러다임을 고민해보길 권함  
  이미지 생성이 **diffusion model**로, GPT가 **RLHF**로 도약했듯, RL도 최종 단계는 아닐 것임  
  우리의 과제는 그보다 나은 방법을 찾는 것임
  - 사람들은 이미지나 텍스트 생성에만 관심 있다고 가정하지만, RL은 **제어 문제**에서 탁월함  
    충분한 실행 시간이 주어지면 수학적으로 최적 해를 보장함  
    그래서 자율주행차는 GPT가 아니라 RL을 씀
  - RL은 사실상 학습 방법이라기보다 **데이터셋 생성 방식**에 가까움
  - 광고 산업에서도 RL은 여전히 활발히 쓰임  
    수백만~수십억 방문을 최적화할 때, **contextual multi-armed bandit**을 더하면 구매 유도에 매우 효과적임
  - 조합 최적화(combinatorial optimization) 문제나 시뮬레이션 기반 환경에서는 어떤 패러다임이 적합할지 궁금함
  - RLHF를 학생 시절 시험 점수 올리기 위한 전략처럼 생각했음  
    하지만 실제 업무에서는 **out-of-distribution 일반화**가 단순한 보상 기반 학습으로는 불가능하다는 걸 깨달음

- 영상이 공개되어 있는지 궁금했는데, 봄 학기 강의는 [YouTube 재생목록](https://m.youtube.com/playlist?list=PLoROMvodv4rN4wG6Nk6sNpTEbuOSosZdX)에 있음

- 전통적인 ML만 배운 입장에서 RL을 **일반적인 문제**에 어떻게 적용해야 할지 혼란스러움  
  예를 들어 BCE loss를 쓰는 이진 분류나 주택 가격 예측 문제에 RL을 억지로 적용하려면 어떻게 해야 할지 모르겠음  
  손실 함수 연결 방식이 감이 안 잡힘
  - RL을 쓸지 판단할 때 고려할 세 가지는 ① 각 예제의 손실 정보량, ② 손실 신호로 모델을 조정할 수 있는지, ③ **특징 공간의 복잡도**임  
    주택 가격 예측처럼 명확한 회귀 문제는 기존 방법이 충분히 효과적이며 RL은 불필요함  
    반면 바둑처럼 순차적 의사결정 문제는 보상 신호가 희박하고 전략 개선이 불분명해 RL이 적합함
  - 나 같으면 RL을 쓰지 않겠음  
    RL은 **라벨이 없는 복잡한 상황**에서 유용하지만, 체스 같은 문제도 결국 감독학습 문제로 변환하는 게 핵심임
  - RL은 **Markov 결정 과정(MDP)** 에서 최적 정책을 찾는 기법임  
    상태와 행동 공간이 정의된 순차적 의사결정 문제에 적합하지만, 이진 분류나 회귀에는 맞지 않음  
    RL은 미래 결과를 알 수 없는 상황에서 현재 결정을 내려야 하는 문제에 강함

- RL은 **불안정하고 수렴이 어렵다**는 평이 많음  
  Stanford 연구진도 인정함  
  해결책이 있는지 궁금함
  - **FlowRL**이 한 가지 대안임  
    단일 최대값이 아닌 **보상 분포 전체**를 학습함으로써 안정성을 높임

- Ilya의 팟캐스트를 들은 뒤라면 이번 강의 제목이 흥미롭게 느껴짐
  - “결국 **AI 겨울**이 오는 건가?”라는 농담이 나옴
  - 어떤 팟캐스트를 말하는 건지 궁금하다는 질문도 있었음

- RL 관련 **추천 도서**를 찾고 있음  
  이미 딥러닝은 충분히 공부했음  
  Sutton의 *Reinforcement Learning*, Kevin Patrick Murphy의 [*Reinforcement Learning, an overview*](https://arxiv.org/abs/2412.05265), Sebastian Raschka의 신간 등을 검토 중임  
  - Kochenderfer 등의 *Algorithms for Decision Making*도 RL과 관련된 접근을 다룸  
    무료 PDF는 [algorithmsbook.com](https://algorithmsbook.com)에서 받을 수 있음