▲xguru 2024-08-09 | parent | ★ favorite | on: "RLHF는 RL의 작은 부분일 뿐입니다." - Andrej Karpathy(twitter.com/karpathy)Hacker News 의견 AI 코딩 보조는 향후 몇 년 동안 크게 발전할 것임 Chat AI는 명확한 보상 함수가 없어 품질 판단이 어려움 코딩 AI는 테스트 작성, 코드 작성, 컴파일, 실패한 테스트 케이스 검사 등을 무한 루프로 수행할 수 있음 이 과정은 미래 AI 코딩 모델의 훈련 데이터로 사용될 수 있음 언어 모델도 수학적 정리 증명에서 뛰어난 성과를 보일 것임 정리 검증 소프트웨어는 100% 정확한 피드백을 제공하여 강화 학습을 가능하게 함 프로그램의 정확성에 대한 형식적 검증은 지루하지만 LLMs가 이를 변화시킬 수 있음 LLMs가 생성한 주석을 엔진이 사용하여 정확성을 증명할 수 있음 RLHF와 유사한 저렴한 DIY 방법은 모델을 미세 조정하여 출력에 점수를 추가하는 것임 좋은 답변을 만드는 손실 함수를 작성할 수 없기 때문에 RLHF가 필요함 기본 모델이 프롬프트에 대해 n개의 완료를 생성하고 수동으로 점수를 매김 그런 다음 프롬프트 => (완료, 점수) 쌍이 훈련 세트가 됨 모델이 훈련되면 프롬프트에 원하는 점수를 포함하면 모델이 그 점수에 맞는 답변을 생성하려고 함 다양한 ML 알고리즘이 보상 함수를 "게임"하는 문제는 금융 및 경제 문제와 유사함 사람들이 생산적인 일을 하지 않고 돈을 얻으려고 하면 비생산적인 것이 많아짐 이를 완화하려면 보상 함수를 게임하는 것을 벌하는 시스템이 필요함 이 시스템은 실제 가치를 이해하고 보상 함수가 높지만 가치가 낮은 경우를 식별할 수 있어야 함 Karpathy는 이 주제에 대해 훨씬 더 잘 알고 있지만, 이 게시물에는 뭔가 빠진 느낌임 Go는 인간이 해결하기에는 너무 복잡한 게임임 LLM은 인간을 완벽하게 모방하는 것이 목표임 AlphaGo와 Stockfish는 게임 이해를 발전시킬 수 있지만, LLM은 언어의 경계를 확장할 수 없음 LLM은 본질적으로 모방 모델이기 때문에 RLHF가 LLM 영역에서 더 의미가 있음 현재의 transformer 기반 LLM과 최적의 시퀀스 예측 간의 "격차"가 무엇인지 궁금함 현재 LLM은 훈련 중에 토큰 예측의 교차 엔트로피를 최소화하는 간단한 목표 함수를 가짐 Solomonoff induction은 최적의 시퀀스 예측을 달성함 SI와 GPT4의 대화가 얼마나 다를지 궁금함 AGI는 최적의 시퀀스 예측 이상이 필요함 인간 지향적인 목표 함수는 사용자가 만족하는 답변을 제공하는 확률을 최대화하는 것임 하지만 여러 사용자가 있기 때문에 집계 방법이 문제임 Karpathy는 이 문제를 암시하고 있음 LEAN과 같은 증명 분야는 상태, 행동, 진행 측정, 최종 목표 상태를 가짐 Karpathy가 LEAN 증명을 자동화하는 데 집중하면 수학을 영원히 바꿀 수 있음 AlphaGo는 인간 피드백이 없었지만 인간으로부터 배웠음 AlphaZero는 인간의 영향을 배제하고 순수한 강화 학습을 사용함 SPAG 논문은 언어 모델을 사용한 진정한 강화 학습의 예임 Karpathy의 게시물에서 "규모"와 "개방형 도메인"이 빠져 있음 적대적 언어 게임은 유망해 보임 LLM + RL이 개방형 도메인 문제 해결에서 사람을 능가할 것이라는 결론은 근거가 부족함
Hacker News 의견
AI 코딩 보조는 향후 몇 년 동안 크게 발전할 것임
RLHF와 유사한 저렴한 DIY 방법은 모델을 미세 조정하여 출력에 점수를 추가하는 것임
다양한 ML 알고리즘이 보상 함수를 "게임"하는 문제는 금융 및 경제 문제와 유사함
Karpathy는 이 주제에 대해 훨씬 더 잘 알고 있지만, 이 게시물에는 뭔가 빠진 느낌임
현재의 transformer 기반 LLM과 최적의 시퀀스 예측 간의 "격차"가 무엇인지 궁금함
LEAN과 같은 증명 분야는 상태, 행동, 진행 측정, 최종 목표 상태를 가짐
AlphaGo는 인간 피드백이 없었지만 인간으로부터 배웠음
SPAG 논문은 언어 모델을 사용한 진정한 강화 학습의 예임
LLM + RL이 개방형 도메인 문제 해결에서 사람을 능가할 것이라는 결론은 근거가 부족함