"RLHF는 RL의 작은 부분일 뿐입니다."

▲

xguru 2024-08-09 | parent | ★ favorite | on: "RLHF는 RL의 작은 부분일 뿐입니다." - Andrej Karpathy(twitter.com/karpathy)

Hacker News 의견

AI 코딩 보조는 향후 몇 년 동안 크게 발전할 것임
- Chat AI는 명확한 보상 함수가 없어 품질 판단이 어려움
- 코딩 AI는 테스트 작성, 코드 작성, 컴파일, 실패한 테스트 케이스 검사 등을 무한 루프로 수행할 수 있음
- 이 과정은 미래 AI 코딩 모델의 훈련 데이터로 사용될 수 있음
- 언어 모델도 수학적 정리 증명에서 뛰어난 성과를 보일 것임
- 정리 검증 소프트웨어는 100% 정확한 피드백을 제공하여 강화 학습을 가능하게 함
- 프로그램의 정확성에 대한 형식적 검증은 지루하지만 LLMs가 이를 변화시킬 수 있음
- LLMs가 생성한 주석을 엔진이 사용하여 정확성을 증명할 수 있음
RLHF와 유사한 저렴한 DIY 방법은 모델을 미세 조정하여 출력에 점수를 추가하는 것임
- 좋은 답변을 만드는 손실 함수를 작성할 수 없기 때문에 RLHF가 필요함
- 기본 모델이 프롬프트에 대해 n개의 완료를 생성하고 수동으로 점수를 매김
- 그런 다음 프롬프트 => (완료, 점수) 쌍이 훈련 세트가 됨
- 모델이 훈련되면 프롬프트에 원하는 점수를 포함하면 모델이 그 점수에 맞는 답변을 생성하려고 함
다양한 ML 알고리즘이 보상 함수를 "게임"하는 문제는 금융 및 경제 문제와 유사함
- 사람들이 생산적인 일을 하지 않고 돈을 얻으려고 하면 비생산적인 것이 많아짐
- 이를 완화하려면 보상 함수를 게임하는 것을 벌하는 시스템이 필요함
- 이 시스템은 실제 가치를 이해하고 보상 함수가 높지만 가치가 낮은 경우를 식별할 수 있어야 함
Karpathy는 이 주제에 대해 훨씬 더 잘 알고 있지만, 이 게시물에는 뭔가 빠진 느낌임
- Go는 인간이 해결하기에는 너무 복잡한 게임임
- LLM은 인간을 완벽하게 모방하는 것이 목표임
- AlphaGo와 Stockfish는 게임 이해를 발전시킬 수 있지만, LLM은 언어의 경계를 확장할 수 없음
- LLM은 본질적으로 모방 모델이기 때문에 RLHF가 LLM 영역에서 더 의미가 있음
현재의 transformer 기반 LLM과 최적의 시퀀스 예측 간의 "격차"가 무엇인지 궁금함
- 현재 LLM은 훈련 중에 토큰 예측의 교차 엔트로피를 최소화하는 간단한 목표 함수를 가짐
- Solomonoff induction은 최적의 시퀀스 예측을 달성함
- SI와 GPT4의 대화가 얼마나 다를지 궁금함
- AGI는 최적의 시퀀스 예측 이상이 필요함
- 인간 지향적인 목표 함수는 사용자가 만족하는 답변을 제공하는 확률을 최대화하는 것임
- 하지만 여러 사용자가 있기 때문에 집계 방법이 문제임
- Karpathy는 이 문제를 암시하고 있음
LEAN과 같은 증명 분야는 상태, 행동, 진행 측정, 최종 목표 상태를 가짐
- Karpathy가 LEAN 증명을 자동화하는 데 집중하면 수학을 영원히 바꿀 수 있음
AlphaGo는 인간 피드백이 없었지만 인간으로부터 배웠음
- AlphaZero는 인간의 영향을 배제하고 순수한 강화 학습을 사용함
SPAG 논문은 언어 모델을 사용한 진정한 강화 학습의 예임
- Karpathy의 게시물에서 "규모"와 "개방형 도메인"이 빠져 있음
- 적대적 언어 게임은 유망해 보임
LLM + RL이 개방형 도메인 문제 해결에서 사람을 능가할 것이라는 결론은 근거가 부족함