16P by xguru 2023-03-13 | favorite | 댓글과 토론
  • 소스코드, 모델 가중치 및 학습 데이터셋 전체를 Apache-2.0으로 공개
  • 4개의 주요 컴포넌트
    • GPT-NEOX-20B를 4300만개의 명령어셋으로 파인튜닝한 Instruction-Tuned LLM
    • 자신의 작업에 맞게 파인튜닝 가능한 Customization Recipe
    • 도큐먼트 Repo, API 및 추론시점에 실시간으로 업데이트 가능한 소스에서 정보를 가져와 응답을 보강할 수 있는 Extensible Retreival System
    • GPT-JT-6B를 파인튜닝하여 봇이 응답할 질문을 필터링 하도록 설계된 Moderation Model
  • LAION과 Ontocord의 협업 : 4300만개의 명령어를 포함하는 OIG 데이터셋(별도로 공개)