Q-learning은 아직 확장 불가능함

(seohong.me)

1P by GN⁺ 7달전 | ★ favorite | 댓글 1개

최근 대형 언어 모델(LLM) 등에서처럼 강화학습(RL)의 확장성이 주목받고 있음
실제로 AlphaGo, LLM 등은 강력한 성능을 보이나 주로 on-policy RL 알고리듬이 사용되고 있음
Off-policy RL의 대표 알고리듬인 Q-learning은 긴 문제(horizon)에서 누적 편향 문제로 인해 확장성이 떨어짐
실험 결과, 데이터와 컴퓨팅을 크게 늘려도 표준 Q-learning 계열 알고리듬은 복잡한 장기 과제에서 성능 한계가 존재함
horizon 문제를 완화하는 hierarchy 방법 등 국소적 해법밖에 없어, 근본적으로 확장 가능한 새로운 오프폴리시 RL 목표가 필요함

RL, 확장 가능한가?

최근 언어모델의 다음 토큰 예측, 확산모델, 대조학습 방식 등은 데이터와 컴퓨트를 늘릴수록 잘 확장되는 목표임
게임, 수학, 코딩 등에서 RL 역시 강력한 성과가 있었으며, 그 중 많은 경우 on-policy RL 알고리듬(예: PPO, REINFORCE 등)이 활용됨
On-policy RL은 항상 새로운 roll-out, 즉 최신 정책으로 직접 생성한 데이터만 사용 가능함
이러한 방식은 시뮬레이션이나 LLM에선 큰 문제가 아니나, 로봇 등 실제 환경에서 매우 비효율적임
예를 들어, 로봇 실험에서 충분한 데이터를 얻기까지 수개월이 소요되고, 사람의 수동적 개입이 필요함

Off-policy RL의 등장

Off-policy RL은 이전의 모든 데이터를 재활용 가능하다는 점에서 sample efficiency가 뛰어남
대표적으로 Q-learning이 널리 쓰이고, 실시간 강아지 로봇 워킹 등 성과를 보임
Q-learning은 temporal difference(TD) loss 최소화를 활용하며, 거의 모든 오프폴리시 RL이 이 원리를 따름
현실 문제에 RL을 적용하려면 결국 Q-learning도 확장 가능한가? 라는 질문이 핵심임

Q-learning의 확장 한계

저자는 현재 Q-learning은 긴 horizon(100 decision steps 이상) 문제가 등장하면 잘 확장되지 않음을 주장함
여기서 “확장성”이란 문제의 깊이/난이도(‘depth’)가 증가해도 데이터와 연산 자원 투입만으로 해결 가능한가를 의미함
여러 논문에서 실험적으로 증명했듯, 단순히 처리 가능한 문제 수(‘width’)만 늘리는 것이 아님
저자의 주장: Q-learning 계열은 깊이축(difficulty)에서 확장성이 떨어지며, 알고리듬 혁신이 필수적임
주요 근거는 두 가지임: 하나는 경험적 성공 사례 부재, 다른 하나는 최근 수행한 체계적 실험임

경험적 근거

AlphaGo, AlphaZero, MuZero는 모두 model-based, on-policy RL로 TD-learning 계열이 아님
OpenAI Five 역시 PPO 등 on-policy 방법임
LLM용 RL도 대부분 정책 그라디언트 계열 on-policy 변종이 주류임
Q-learning이나 유사 off-policy RL이 AlphaGo나 LLM급의 대규모 실제 성공 사례는 거의 없음
저자는 여러 논문 및 실무 사례 조사결과 Q-learning 기반 대형 성공 사례를 알지 못한다고 밝힘

Q-learning의 한계 원인: Horizon과 누적 편향

Q-learning은 부트스트랩한(추정치로 예측값 생성) TD 타깃이 항상 편향됨; 이러한 편향이 time-horizon을 따라 누적됨
반면, 토큰 예측, 확산, 대조학습 등 다른 확장성 높은 목표는 예측 타깃에 누적 편향이 없음
Horizon(결정 길이)이 길어질수록, 누적된 오차로 인해 Q-learning의 성능 확장이 제한됨
이를 완화하려고 discount factor를 작게 설정하는 사례가 많음
Policy gradient 등 on-policy 값 추정 방식은 GAE 등 기법 덕분에 horizon 문제 영향이 상대적으로 적음

실험을 통한 확장성 한계 검증

최근 논문에서 ultra-long horizon 과제를위해 OGBench 등에서 수천 step짜리 어려운 task를 설계
환경에서 "거의 무한대" 데이터와 강력한 모델, 표현 신경망 부담 완화 등 잡음 요인을 최소화함
기존 오프라인 RL(BC, IQL, CRL, SAC+BC 등) 모두 초대형 데이터셋에서도 복잡한 task를 학습 못함
데이터와 모델 크기, 학습시간, 하이퍼파라미터 등 모든 변수에 대해 ablation test를 했으나 성능 한계 극복 실패
단, horizon(의사결정 길이)을 줄이는 기법만이 확실히 성능 확장에 효과적이었음

Horizon 축소 기법의 효과

n-step return, 계층형(hierarchical) RL 등 horizon 축소만이 RL 스케일링에 결정적으로 효과를 보임
horizon 축소는 단순 학습 가속화가 아니라 최종 성능 자체도 획기적으로 향상시킴
하지만 이런 방식은 문제 근본 해결이 아니라 horizon을 상수배만큼 줄이는 데 그침
horizon curse를 해소할 새로운 알고리듬 접근법이 필요함

새로운 확장성 있는 오프폴리시 RL 목표의 필요

지금까지의 연구로 단순히 데이터/모델 사이즈만 늘려서는 horizon curse를 근본적으로 극복할 수 없음이 증명됨
궁극적으로는 임의 길이의 장기 문제에도 확장 가능한 오프폴리시 RL 변종이 필요함
이 목표가 실현되면 로봇, LLM, 다양한 의사결정 agent 등 더 폭넓은 실세계 문제 해결이 가능해질 것임

향후 연구 아이디어 및 제안

두 단계 계층(hierarchy)을 뛰어넘어 임의 길이 horizon에 대응할 수 있는 단순하고 확장 가능한 새로운 계층적 구조 제안 가능
모델기반 RL(model-based RL) 은 감독학습 기반 모델링과 on-policy RL 융합을 통해 scalable 할 가능성이 있음
TD learning을 아예 배제한 quasimetric RL, contrastive RL 등 새로운 계열 탐구도 유용할 수 있음
생성한 평가 환경 및 코드 오픈, 다양한 새로운 RL 알고리듬의 스케일 테스트 벤치마크로 활용 가능함

감사의 말

논문 및 포스트에 협력/피드백을 제공한 여러 연구자들에게 감사 인사를 전함
본 내용은 [Horizon Reduction Makes RL Scalable] 논문 등에 기반하며, 저자 개인 의견임을 명시함

▲

GN⁺ 7달전 [-]

Hacker News 의견

Q-Learning의 확장성 한계는 블로그에서 언급된 것보다 더 큰 이유가 있다고 생각함. 에이전트가 다루어야 하는 상태 수가 수평선(horizon)이 증가함에 따라 보통 기하급수적으로 늘어남. 이로 인해 해당 상태들을 다루는 Q를 훈련시키려면 데이터 수요도 기하급수적으로 커짐. 반면 on-policy 학습은 중요 상태만을 학습하므로, 기하급수적인 상태 공간에도 불구하고 훈련 데이터가 필요한 지점에만 집중되어 상대적으로 문제 간소화
- 글에서 말하는 Q-learning의 overapproximation bias 분석에 동의함. Q-learning의 Max 연산자는 노이즈를 시간축을 따라 증폭시키는 경향이 있음. 이 논문처럼 bias 완화 방법들이 RL 에이전트 성능을 성공적으로 개선한 사례도 있음. 네트워크가 잘 방문하지 않은 상태에서 이런 현상이 더 잘 나타난다는 연구 결과도 있음. 상태 수가 기하급수적으로 늘어나더라도 학습 가능한 구조가 있으면 성능이 가능해짐이 딥러닝의 강점임. 핵심은 올바른 훈련 목표를 잡는 것인데, 글에서는 Q-learning이 그 부분에서 한계가 있다고 주장함. MuZero 같은 모델 기반 RL 시스템이 해결책이 될 수 있을지 궁금함. MuZero는 이전 트래젝토리를 재분석해 훈련 효율을 높이고, Monte Carlo Tree Search(MCTS)는 여러 단계를 펼치면서 수평선을 줄이는 원칙적인 방법임. MCTS 내에서도 Max 연산자 문제가 생길 수 있지만, 탐색이 깊어질수록 이런 문제에 대한 상쇄가 가능함
- 이 스레드가 도움이 될 수 있을 것 같음. 완전 비전문가 관점에서, 어떤 작업은 “깊이”가 있음에도 불구하고 여전히 균질성을 가진다 볼 수 있는데, 이런 경우에는 샘플 품질이 다소 떨어져도 학습이 가능함. 이런 작업을 나는 “ergodic”하다고 부르고 싶음. 하지만 반드시 그렇지 않은 작업들도 분명히 존재한다고 생각함
- 이것이 일반 그리드 몬테카를로 통합과 중요도 샘플링 몬테카를로 통합의 차이와 비슷한지 궁금함
- Majorana-1에 대한 감상 공유
블로그에서 Decision Transformers, Trajectory Transformers 같은 오프라인 방식이 언급되지 않은 점이 아쉬움. 이들은 어텐션 메커니즘 덕분에 credit assignment 문제를 피해서 긴-horizon (장기) 작업에서 좋은 성능을 보임. 많은 RL 연구자들은 이 방식들이 "진정한 RL"이 아니라고 보는데, 그 이유는 context window 밖에 credit을 할당할 수 없기 때문임. 그래서 무한 horizon 작업에는 적용이 어렵다는 평가가 많음. 하지만 context window가 100만이 넘는다면, 실제로는 큰 문제가 되지 않을지도 궁금. Decision Transformer 논문, Trajectory Transformer 논문 참고
- TFP 논문은 decision transformers를 인용함. Transformer 아키텍처만으로 credit assignment 문제를 회피할 수 없으며, Transformer는 순서가 중요한 시퀀스 모델링 문제(예: RL 내 credit assignment)에 쓰이는 구조임. 해당 문제의 난이도는 데이터 희소성에 의해 결정되며, 아키텍처 선택만으로 이를 “회피”하는 것은 아님
RL의 핵심을 잘 요약했다고 생각함. 아주 간단히 말하면, 계속 움직이며 목표를 쫓는데 그 목표 위치도 내가 어떻게 움직이느냐에 따라 계속 바뀌는 상황임. 즉, value-based RL에서는 절대적인 정답(ground truth)이 없으며, 내 추정치들로만 양쪽을 맞추는 게임임. 하지만 절망적이라고 생각하지 않음. 오히려 RL이 이제 곧 실용화될 거라 여기는데, 그동안 신뢰할 수 있는 월드 모델이나 동역학 함수가 부족했던 게 한몫했기 때문임. 이제는 그 부분에서도 큰 발전 중임
이 논문/블로그는 이미 RL 지식이 있는 사람을 대상으로 함. RL을 더 깊게 공부하고 싶으면 David Silver(Deep Mind)의 입문 강의 추천
오프 폴리시 학습의 근본적 한계는, 효과적이지 못한 초기 탐색 데이터가 더 발전된 정책 학습에는 별로 도움이 되지 않는다는 점임. 예를 들면 체스에서 초보적인 실수, 의미 없는 움직임, 퍼즐을 못 푸는 행동 등이 있음. 데이터가 오프폴리시가 되는 시점은 해당 행동을 현재의 정책(즉 실제로 에이전트가 선택할 것)에서 벗어났을 때임. 그래서 결국 이 문제의 본질은 더 나은 일반화, 그리고 샘플 효율성 향상에 있음
- 이런 주장이 너무 일반적이지 않나라는 의문이 듦. 예를 들어, 오프폴리시 학습으로 개가 20분만에 걷게 됐던 예시는 어떻게 설명할 수 있을지 궁금. 혹시 더 섬세한 관점이 있는지 묻고 싶음
인간이 장기적(horizon이 긴) 작업을 배울 때는, 반복 훈련을 통해 전체 작업을 짧은 horizon의 세부 작업으로 분할해서 익히고, 나중에 이런 부분 기술들을 계층적으로 조합하는 방식 사용
- 순진할 수 있지만, 결국 이 문제는 알고리즘보다 접근 방식의 문제에 가깝다고 느낌. 모델이 처음부터 긴 horizon 작업을 해결하긴 어렵지만, 먼저 짧은 horizon 기술을 학습한 뒤 그것들을 묶어서 더 긴 horizon 작업을 익히는 구조임. 인간도 복잡한 일을 미세한 동작의 연속으로 하나씩 배우기보다, 소단위를 익혀서 계층적으로 작업 세분화하는 방식 사용. 예를 들어 비행기 조종이나 스포츠를 할 때도 기본기부터 차근차근 익힘
인간은 실제로 on-policy와 off-policy 학습을 모두 활용함. 직접 행동의 결과를 탐색하는 과정에서 on-policy 학습을 하고, 다른 전문가의 시범을 관찰하면서 off-policy로도 배움. 하지만 인간은 좋은 행동과 나쁜 행동을 구분해 “좋은 것”만 추려서 학습한다는 점이 RL과 차이임. 반면, 대부분의 off-policy RL에서는 나쁜 행동도 데이터로 쓰여서 전체 훈련 속도 저하로 이어짐
- 좋은 행동과 나쁜 행동을 항상 구분할 수 있는 것은 아니라는 점도 언급하고 싶음. 전문가 시범 중에서는 초보자 관점에서 “완전히 잘못된 것”처럼 보이더라도 훨씬 더 뛰어난 결과로 이어지는 경우도 있음. 때로는 정말 실력자가기에 그런 “정석을 벗어난” 전술도 가능함
블로그 내용이 마음에 들지만, 설명되지 않은 약어나 전문 용어 사용이 더 넓은 독자에게 유용성을 떨어뜨린다는 점이 아쉬움. 용어와 약어를 꼭 설명해서 접근성을 높였으면 좋겠음
- 이런 식의 블로그포스트처럼 내용은 굉장히 알차지만, 사전 지식을 많이 요구해 접근성이 떨어질 때 AI 도구가 설명·쉬운 해설에 큰 도움이 됨. 최근엔 브라우저 기반 Dia를 사용했더니 효과적이었음. 다른 AI 모델로 복사-붙여넣기를 해도 전체가 간결하면서도, 궁금한 점에 대한 해설을 얻을 수 있음
- 이런 글은 명확하게 RL 연구자용으로 쓰였다는 점이 느껴짐. 결론이 “누구 Q-learning scalable하게 만들 방법 좀 찾아줘!”라는 식임
- 오히려 그런 점이 이 글을 더 깔끔하게 만들어줬다고 생각함
Q-Learning 같은 오프폴리시 기법의 강점은, 준 최적 데이터(좋지 않은 데이터)만 얻어도 결국 최적 해에 수렴한다는 점임. 예를 들어, 아무 전략도 없는 체스 경기 데이터만 모아 Q-Learning 입력으로 써도 결국 최적 정책을 학습 가능함(물론 좋은 데이터일 때보다 느리지만)
- 이렇게 되는 조건이 바로 “ergodic” 작업(비록 단어를 약간 변형해서 쓰지만)의 정의라고 생각함. 하지만 그런 ergodic하지 않은 작업도 존재할 것이라고 봄

답변달기