# Databricks, ChatGPT와 비슷한 Dolly 2.0 오픈소스로 공개

> Clean Markdown view of GeekNews topic #8952. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=8952](https://news.hada.io/topic?id=8952)
- GeekNews Markdown: [https://news.hada.io/topic/8952.md](https://news.hada.io/topic/8952.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2023-04-14T10:03:01+09:00
- Updated: 2023-04-14T10:03:01+09:00
- Original source: [databricks.com](https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm)
- Points: 35
- Comments: 1

## Topic Body

- 세계 최초의 진정한 개방형 Instruction-Tuned LLM  
- 전체 훈련 코드, 데이터 셋, 모델 가중치를 모두 공개. 즉 개인/회사 누구든 자신의 강력한 LLM을 생성 및 소유 가능   
- 사람이 생성한 명령어 databricks-dolly-15k 데이터셋으로 파인 튜닝  
  - 15000개의 프롬프트/답변 페어. 누구나 변경/확장 가능하며 상업용도로도 사용 가능   
    - (Alpaca, Koala, GPT4All, Vicuna 등은 모두 상업용 사용 불가)  
  - 이 데이터는 5천명의 databricks 직원들이 직접 작성한 것  
- EleutherAI pythia 12B 파라미터 언어 모델 기반

## Comments



### Comment 15660

- Author: kuroneko
- Created: 2023-04-14T10:22:44+09:00
- Points: 3

사내 직원 대상으로 LLM 훈련용 질문 세트를 만드는 대화를 열었는데, 예상보다 참여가 너무 많아서 일하는데 방해가 될까 봐 조기 마감했다는 게 너무 재미있네요.  
  
아무튼 이런 대기업이 과감한 투자를 통해 고품질 데이터 세트를 완전 오픈소스(CC BY-SA 3.0)로 풀었다는 점은 정말 칭찬해주고 싶습니다.  
이런 기업이 조금씩 많아지고 참여가 늘어나다 보면 언젠가 GPT-4 수준의 상업적 사용이 가능한 오픈소스 모델이 나오지 않을까요?
