10P by xguru 2023-03-31 | favorite | 댓글과 토론
  • LLaMA 모델을 기반
    • Supervised 데이터 수집
    • Supervised 파인 튜닝
    • Reward 모델 학습
    • Reinforcement Learning 파인 튜닝
  • 포함하는 콘텐츠
    • 온라인에서 실행하는 인터랙티브 데모
    • 7B/13B 모델을 포함하는 완전한 RLHF 훈련코드 오픈소스
    • 중국어/영어로 구성된 104k bilingual 데이터셋
    • 7B모델의 4-bit 양자화. 4GB GPU 메모리만 필요
    • 모델 가중치 포함. 싱글 서버에서 간단히 재생산 가능
    • 대형 모델/데이터셋/최적화 등도 계속 추가 에정