"RLHF는 RL의 작은 부분일 뿐입니다." - Andrej Karpathy

(twitter.com/karpathy)

8P by xguru 2024-08-09 | ★ favorite | 댓글 1개

Reinforcement Learning from Human Feedback (RLHF)는 사전 학습(pretraining)과 지도 학습 파인튜닝(supervised finetuning, SFT) 이후 LLM 학습의 세 번째(그리고 마지막) 주요 단계임
- RLHF에 대한 내 생각은 RL의 일부분일 뿐이며, 이는 널리 알려져 있지 않음
- RLHF는 실제로 RL(강화학습)이라고 하기에 부족함
- 예로 AlphaGo는 실제 RL로 훈련되었으며, RLHF로 훈련되었다면 지금의 성과를 내지 못했을 것임
AlphaGo를 RLHF로 훈련했다면 어떻게 되었을까?
- 인간 평가자에게 두 개의 바둑판 상태를 제시하고 어느 쪽이 더 나은지 선택하게 함
- 이와 같은 비교를 약 10만개 수집하고, 인간의 평가(Vibe Check)를 모방하는 '"Reward Model"(RM, 보상모델) 신경망을 학습시킴
- 이 보상 모델을 기준으로 RL을 수행하여 좋은 평가를 받는 움직임을 학습함
- 하지만 이는 바둑에서 유의미한 성과를 내지 못했을 것임
RLHF가 AlphaGo에 적합하지 않은 두 가지 주요 이유
- 첫째, Vibe는 오해의 소지가 있을수 있음. 이 보상은 실제 승리라는 보상이 아닌 부정확한 프록시(대리) 목표임
- 둘째, RL 최적화 과정에서 보상 모델이 훈련 데이터의 범위를 벗어난 비정상적인 상태에 높은 점수를 주어 최적화가 왜곡될 가능성이 큼
  - RM은 바이브를 모방하는 수십억 개의 매개변수를 가진 대규모 신경망임
LLM에 RLHF를 적용할 때의 문제점
- LLM의 보상 모델 역시 인간 평가자들이 선호할 만한 응답에 높은 점수를 주는 경향이 있음
  - 이 보상 모델이 "실제" 문제를 해결하는 것이 아니라, 인간이 좋아할 것 같은 응답을 평가하는 대리 목표에 불과함
- RLHF를 너무 오래 실행할 수 없는데, 모델이 보상 모델을 속이는 방식으로 응답하는 법을 빠르게 학습하기 때문임
- LLM 어시스턴트가 "The the the the the the"와 같이 이상한 것으로 응답하기 시작하는 것을 볼 수 있음
- 이는 웃기게 보이지만 RM은 이를 매우 훌륭하게 생각함
- RM의 훈련 데이터 범위를 벗어난 영역에서 적대적 예제를 발견한 것
- 이러한 이유로 RLHF를 너무 많은 최적화 단계에서 실행할 수 없으며, 몇 백/천 단계를 수행한 후에는 최적화가 RM을 속이기 시작하기 때문에 중단해야 함
- 이는 AlphaGo와 같은 RL이 아님
RLHF가 여전히 LLM Assistant 구축에 유용한 이유
- RLHF는 Generator(생성자)-Discriminator(판별자) 간의 격차에서 혜택을 얻음
  - 즉, 많은 문제 유형에서 인간 평가자가 처음부터 이상적인 답을 작성하는 대신 몇 가지 후보 답안 중 가장 좋은 답을 선택하는 것이 훨씬 더 쉬운 작업임
  - 좋은 예로 "클립에 대한 시를 생성하라"와 같은 프롬프트에서 여러 후보 중에서 좋은 시를 선택하는 것이 더 쉬움
- RLHF는 이러한 인간 감독의 '용이성' 격차에서 혜택을 얻는 방법임
- 또한, RLHF는 환각(잘못된 정보 생성)을 줄이는 데도 유용함
  - RM이 훈련 중에 LLM이 무언가를 지어내는 것을 잡아낼 수 있을 정도로 강력한 모델이라면 낮은 보상으로 불이익을 주는 방법을 학습하여 모델에게 확실하지 않은 사실에 위험을 감수하는 것을 싫어하도록 가르칠 수 있음
  - 그러나 환각과 그 완화에 대한 만족스러운 치료법은 완전히 다른 주제임
결론적으로 "RLHF는 유용하지만, 진정한 RL은 아님"
- 지금까지 오픈 도메인에서 대규모로 프로덕션 수준의 "실제" RL을 LLM에 설득력 있게 달성하고 입증한 사례는 없음
- 직관적으로도 오픈 도메인 문제 해결에서 실제 보상(즉, 게임에서 이기는 것과 같은)을 얻는 것은 매우 어렵기 때문
- 역학이 제한되고 보상 함수가 평가하기 쉽고 속일 수 없는 바둑과 같은 폐쇄적이고 게임과 유사한 환경에서는 재미있음
- 예를 들어, 문서 요약이나 약간 모호한 질문에 대한 답변, 농담하기, Java 코드를 Python으로 다시 작성하는 등에 대해 어떻게 객관적인 보상을 줄 수 있을까?
  - 이를 향한 길은 원칙적으로 불가능한 것은 아니지만 사소하지도 않으며 창의적인 사고를 필요로 함
  - 하지만 이 문제를 설득력 있게 해결하는 사람은 실제 RL을 실행할 수 있을 것임
    - AlphaGo가 바둑에서 인간을 이기게 한 종류의 RL
  - 이 문제를 해결하는 사람은 오픈 도메인 문제 해결에서 인간을 능가하는 LLM을 만들 수 있을 것임

▲

xguru 2024-08-09 [-]

Hacker News 의견

AI 코딩 보조는 향후 몇 년 동안 크게 발전할 것임
- Chat AI는 명확한 보상 함수가 없어 품질 판단이 어려움
- 코딩 AI는 테스트 작성, 코드 작성, 컴파일, 실패한 테스트 케이스 검사 등을 무한 루프로 수행할 수 있음
- 이 과정은 미래 AI 코딩 모델의 훈련 데이터로 사용될 수 있음
- 언어 모델도 수학적 정리 증명에서 뛰어난 성과를 보일 것임
- 정리 검증 소프트웨어는 100% 정확한 피드백을 제공하여 강화 학습을 가능하게 함
- 프로그램의 정확성에 대한 형식적 검증은 지루하지만 LLMs가 이를 변화시킬 수 있음
- LLMs가 생성한 주석을 엔진이 사용하여 정확성을 증명할 수 있음
RLHF와 유사한 저렴한 DIY 방법은 모델을 미세 조정하여 출력에 점수를 추가하는 것임
- 좋은 답변을 만드는 손실 함수를 작성할 수 없기 때문에 RLHF가 필요함
- 기본 모델이 프롬프트에 대해 n개의 완료를 생성하고 수동으로 점수를 매김
- 그런 다음 프롬프트 => (완료, 점수) 쌍이 훈련 세트가 됨
- 모델이 훈련되면 프롬프트에 원하는 점수를 포함하면 모델이 그 점수에 맞는 답변을 생성하려고 함
다양한 ML 알고리즘이 보상 함수를 "게임"하는 문제는 금융 및 경제 문제와 유사함
- 사람들이 생산적인 일을 하지 않고 돈을 얻으려고 하면 비생산적인 것이 많아짐
- 이를 완화하려면 보상 함수를 게임하는 것을 벌하는 시스템이 필요함
- 이 시스템은 실제 가치를 이해하고 보상 함수가 높지만 가치가 낮은 경우를 식별할 수 있어야 함
Karpathy는 이 주제에 대해 훨씬 더 잘 알고 있지만, 이 게시물에는 뭔가 빠진 느낌임
- Go는 인간이 해결하기에는 너무 복잡한 게임임
- LLM은 인간을 완벽하게 모방하는 것이 목표임
- AlphaGo와 Stockfish는 게임 이해를 발전시킬 수 있지만, LLM은 언어의 경계를 확장할 수 없음
- LLM은 본질적으로 모방 모델이기 때문에 RLHF가 LLM 영역에서 더 의미가 있음
현재의 transformer 기반 LLM과 최적의 시퀀스 예측 간의 "격차"가 무엇인지 궁금함
- 현재 LLM은 훈련 중에 토큰 예측의 교차 엔트로피를 최소화하는 간단한 목표 함수를 가짐
- Solomonoff induction은 최적의 시퀀스 예측을 달성함
- SI와 GPT4의 대화가 얼마나 다를지 궁금함
- AGI는 최적의 시퀀스 예측 이상이 필요함
- 인간 지향적인 목표 함수는 사용자가 만족하는 답변을 제공하는 확률을 최대화하는 것임
- 하지만 여러 사용자가 있기 때문에 집계 방법이 문제임
- Karpathy는 이 문제를 암시하고 있음
LEAN과 같은 증명 분야는 상태, 행동, 진행 측정, 최종 목표 상태를 가짐
- Karpathy가 LEAN 증명을 자동화하는 데 집중하면 수학을 영원히 바꿀 수 있음
AlphaGo는 인간 피드백이 없었지만 인간으로부터 배웠음
- AlphaZero는 인간의 영향을 배제하고 순수한 강화 학습을 사용함
SPAG 논문은 언어 모델을 사용한 진정한 강화 학습의 예임
- Karpathy의 게시물에서 "규모"와 "개방형 도메인"이 빠져 있음
- 적대적 언어 게임은 유망해 보임
LLM + RL이 개방형 도메인 문제 해결에서 사람을 능가할 것이라는 결론은 근거가 부족함

답변달기