ColossalChat - ChatGPT를 복제하기 위한 RLHF 파이프라인 오픈소스 솔루션
(medium.com/@yangyou_berkeley)- LLaMA 모델을 기반
- Supervised 데이터 수집
- Supervised 파인 튜닝
- Reward 모델 학습
- Reinforcement Learning 파인 튜닝
- 포함하는 콘텐츠
- 온라인에서 실행하는 인터랙티브 데모
- 7B/13B 모델을 포함하는 완전한 RLHF 훈련코드 오픈소스
- 중국어/영어로 구성된 104k bilingual 데이터셋
- 7B모델의 4-bit 양자화. 4GB GPU 메모리만 필요
- 모델 가중치 포함. 싱글 서버에서 간단히 재생산 가능
- 대형 모델/데이터셋/최적화 등도 계속 추가 에정