# OpenOrca - 데이터셋 & 인스트럭션 튜닝된 언어모델 오픈소스

> Clean Markdown view of GeekNews topic #9567. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=9567](https://news.hada.io/topic?id=9567)
- GeekNews Markdown: [https://news.hada.io/topic/9567.md](https://news.hada.io/topic/9567.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2023-07-01T10:32:01+09:00
- Updated: 2023-07-01T10:32:01+09:00
- Original source: [huggingface.co](https://huggingface.co/datasets/Open-Orca/OpenOrca)
- Points: 6
- Comments: 2

## Topic Body

- Microsoft의 Orca 논문 내용을 가져다가 오픈소스로 복제하여 만든 것   
  - GPT-4 Completion으로 보강된 약 1백만개의 FLANv2  
  - GPT-3.4 Completion으로 보강된 약 3.5백만개의 FLANv2   
- FLAN-1m 데이터셋에 있는 75k CoT 전체를 포함   
- 현재는 LLaMA-13B 파운데이션위에서 전체 가중치에 대한 파인튜닝 진행중이서 Microsoft 의 것과 성능이 비슷해 질것   
  - 7월 중순쯤에 OpenOrca-LLaMA-13b 를 릴리즈 할 수 있을 것   
- OpenOrca 를 다른 플랫폼(Falcon, LLaMA, MPT 등)에 적용하기 위한 GPU 컴퓨팅 스폰서를 찾는 중

## Comments



### Comment 16913

- Author: ninebow
- Created: 2023-07-02T11:57:07+09:00
- Points: 1

앗, 링크가 404네요   
  
데이터셋은 [HuggingFace의 Open-Orca/OpenOrca](https://huggingface.co/datasets/Open-Orca/OpenOrca)에서 확인하실 수 있습니다! :D

### Comment 16914

- Author: xguru
- Created: 2023-07-02T12:00:36+09:00
- Points: 1
- Parent comment: 16913
- Depth: 1

엇 글을 지웠나 보네요.  
  
WaybackMachine 에는 남아 있습니다.   
  
https://web.archive.org/web/20230629002546/https://erichartford.com/openorca  
  
링크는 올려준 HuggingFace 링크로 수정해두었습니다.
