Hacker News 의견

  • AI 코딩 보조는 향후 몇 년 동안 크게 발전할 것임

    • Chat AI는 명확한 보상 함수가 없어 품질 판단이 어려움
    • 코딩 AI는 테스트 작성, 코드 작성, 컴파일, 실패한 테스트 케이스 검사 등을 무한 루프로 수행할 수 있음
    • 이 과정은 미래 AI 코딩 모델의 훈련 데이터로 사용될 수 있음
    • 언어 모델도 수학적 정리 증명에서 뛰어난 성과를 보일 것임
    • 정리 검증 소프트웨어는 100% 정확한 피드백을 제공하여 강화 학습을 가능하게 함
    • 프로그램의 정확성에 대한 형식적 검증은 지루하지만 LLMs가 이를 변화시킬 수 있음
    • LLMs가 생성한 주석을 엔진이 사용하여 정확성을 증명할 수 있음
  • RLHF와 유사한 저렴한 DIY 방법은 모델을 미세 조정하여 출력에 점수를 추가하는 것임

    • 좋은 답변을 만드는 손실 함수를 작성할 수 없기 때문에 RLHF가 필요함
    • 기본 모델이 프롬프트에 대해 n개의 완료를 생성하고 수동으로 점수를 매김
    • 그런 다음 프롬프트 => (완료, 점수) 쌍이 훈련 세트가 됨
    • 모델이 훈련되면 프롬프트에 원하는 점수를 포함하면 모델이 그 점수에 맞는 답변을 생성하려고 함
  • 다양한 ML 알고리즘이 보상 함수를 "게임"하는 문제는 금융 및 경제 문제와 유사함

    • 사람들이 생산적인 일을 하지 않고 돈을 얻으려고 하면 비생산적인 것이 많아짐
    • 이를 완화하려면 보상 함수를 게임하는 것을 벌하는 시스템이 필요함
    • 이 시스템은 실제 가치를 이해하고 보상 함수가 높지만 가치가 낮은 경우를 식별할 수 있어야 함
  • Karpathy는 이 주제에 대해 훨씬 더 잘 알고 있지만, 이 게시물에는 뭔가 빠진 느낌임

    • Go는 인간이 해결하기에는 너무 복잡한 게임임
    • LLM은 인간을 완벽하게 모방하는 것이 목표임
    • AlphaGo와 Stockfish는 게임 이해를 발전시킬 수 있지만, LLM은 언어의 경계를 확장할 수 없음
    • LLM은 본질적으로 모방 모델이기 때문에 RLHF가 LLM 영역에서 더 의미가 있음
  • 현재의 transformer 기반 LLM과 최적의 시퀀스 예측 간의 "격차"가 무엇인지 궁금함

    • 현재 LLM은 훈련 중에 토큰 예측의 교차 엔트로피를 최소화하는 간단한 목표 함수를 가짐
    • Solomonoff induction은 최적의 시퀀스 예측을 달성함
    • SI와 GPT4의 대화가 얼마나 다를지 궁금함
    • AGI는 최적의 시퀀스 예측 이상이 필요함
    • 인간 지향적인 목표 함수는 사용자가 만족하는 답변을 제공하는 확률을 최대화하는 것임
    • 하지만 여러 사용자가 있기 때문에 집계 방법이 문제임
    • Karpathy는 이 문제를 암시하고 있음
  • LEAN과 같은 증명 분야는 상태, 행동, 진행 측정, 최종 목표 상태를 가짐

    • Karpathy가 LEAN 증명을 자동화하는 데 집중하면 수학을 영원히 바꿀 수 있음
  • AlphaGo는 인간 피드백이 없었지만 인간으로부터 배웠음

    • AlphaZero는 인간의 영향을 배제하고 순수한 강화 학습을 사용함
  • SPAG 논문은 언어 모델을 사용한 진정한 강화 학습의 예임

    • Karpathy의 게시물에서 "규모"와 "개방형 도메인"이 빠져 있음
    • 적대적 언어 게임은 유망해 보임
  • LLM + RL이 개방형 도메인 문제 해결에서 사람을 능가할 것이라는 결론은 근거가 부족함