6P by xguru 2023-05-11 | favorite | 댓글 1개
  • 모델을 업로드하면 사용자가 평가하는 세계 최초의 오픈 커뮤니티 챌린지
  • 6월 10일에 시즌1 에피소드1 시작해서 12주간 $250k 상금
  • 경쟁 방식
    • 170M개의 사용자 생성 시그널로 직접 학습된 Chai Reward Model(GPT-2)을 오픈소스로 공개
    • 이 모델을 오프라인 평가에 사용하거나 RLHF 파이프라인의 일부로 통합 가능
    • 언어 모델 훈련엔 비용이 많이 들어서, 누구나 대회에 참가할 수 있도록 다양한 기본 모델을 실험 예정
    • 업로드 된 모델에 대해서 내부 AI Safety Classifier로 배포 가능한지 확인하고, 사용자 A/B 테스팅을 위해 공개
    • 약 1백만명 이상의 실제 사용자들이 평가

초사이어인과 퓨젼한듯한 라마 이미지가 인상적이군요