OpenChatKit 공개 - ChatGPT를 구현 가능한 오픈소스 프로젝트

(together.xyz)

소스코드, 모델 가중치 및 학습 데이터셋 전체를 Apache-2.0으로 공개
4개의 주요 컴포넌트
- GPT-NEOX-20B를 4300만개의 명령어셋으로 파인튜닝한 Instruction-Tuned LLM
- 자신의 작업에 맞게 파인튜닝 가능한 Customization Recipe
- 도큐먼트 Repo, API 및 추론시점에 실시간으로 업데이트 가능한 소스에서 정보를 가져와 응답을 보강할 수 있는 Extensible Retreival System
- GPT-JT-6B를 파인튜닝하여 봇이 응답할 질문을 필터링 하도록 설계된 Moderation Model
LAION과 Ontocord의 협업 : 4300만개의 명령어를 포함하는 OIG 데이터셋(별도로 공개)