35P by xguru 2023-04-14 | favorite | 댓글 1개
  • 세계 최초의 진정한 개방형 Instruction-Tuned LLM
  • 전체 훈련 코드, 데이터 셋, 모델 가중치를 모두 공개. 즉 개인/회사 누구든 자신의 강력한 LLM을 생성 및 소유 가능
  • 사람이 생성한 명령어 databricks-dolly-15k 데이터셋으로 파인 튜닝
    • 15000개의 프롬프트/답변 페어. 누구나 변경/확장 가능하며 상업용도로도 사용 가능
      • (Alpaca, Koala, GPT4All, Vicuna 등은 모두 상업용 사용 불가)
    • 이 데이터는 5천명의 databricks 직원들이 직접 작성한 것
  • EleutherAI pythia 12B 파라미터 언어 모델 기반

사내 직원 대상으로 LLM 훈련용 질문 세트를 만드는 대화를 열었는데, 예상보다 참여가 너무 많아서 일하는데 방해가 될까 봐 조기 마감했다는 게 너무 재미있네요.

아무튼 이런 대기업이 과감한 투자를 통해 고품질 데이터 세트를 완전 오픈소스(CC BY-SA 3.0)로 풀었다는 점은 정말 칭찬해주고 싶습니다.
이런 기업이 조금씩 많아지고 참여가 늘어나다 보면 언젠가 GPT-4 수준의 상업적 사용이 가능한 오픈소스 모델이 나오지 않을까요?