Databricks, ChatGPT와 비슷한 Dolly 2.0 오픈소스로 공개
(databricks.com)- 세계 최초의 진정한 개방형 Instruction-Tuned LLM
- 전체 훈련 코드, 데이터 셋, 모델 가중치를 모두 공개. 즉 개인/회사 누구든 자신의 강력한 LLM을 생성 및 소유 가능
- 사람이 생성한 명령어 databricks-dolly-15k 데이터셋으로 파인 튜닝
- 15000개의 프롬프트/답변 페어. 누구나 변경/확장 가능하며 상업용도로도 사용 가능
- (Alpaca, Koala, GPT4All, Vicuna 등은 모두 상업용 사용 불가)
- 이 데이터는 5천명의 databricks 직원들이 직접 작성한 것
- 15000개의 프롬프트/답변 페어. 누구나 변경/확장 가능하며 상업용도로도 사용 가능
- EleutherAI pythia 12B 파라미터 언어 모델 기반
사내 직원 대상으로 LLM 훈련용 질문 세트를 만드는 대화를 열었는데, 예상보다 참여가 너무 많아서 일하는데 방해가 될까 봐 조기 마감했다는 게 너무 재미있네요.
아무튼 이런 대기업이 과감한 투자를 통해 고품질 데이터 세트를 완전 오픈소스(CC BY-SA 3.0)로 풀었다는 점은 정말 칭찬해주고 싶습니다.
이런 기업이 조금씩 많아지고 참여가 늘어나다 보면 언젠가 GPT-4 수준의 상업적 사용이 가능한 오픈소스 모델이 나오지 않을까요?