# 2023년은 오픈 LLM의 해

> Clean Markdown view of GeekNews topic #12455. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=12455](https://news.hada.io/topic?id=12455)
- GeekNews Markdown: [https://news.hada.io/topic/12455.md](https://news.hada.io/topic/12455.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2023-12-21T10:33:04+09:00
- Updated: 2023-12-21T10:33:04+09:00
- Original source: [huggingface.co](https://huggingface.co/blog/2023-in-llms)
- Points: 19
- Comments: 1

## Topic Body

- 대규모 언어 모델(LLM)에 대한 대중의 관심이 증가하고, 오픈 소스와 비공개 소스에 대한 논의가 확산됨  
  
### Pretrained LLM을 위한 레시피  
  
- 모델 아키텍처: 특정 구현과 수학적 형태를 설명  
- 훈련 데이터셋: 모델이 학습하는 예시와 문서를 포함  
- 토크나이저: 텍스트를 숫자로 변환하는 방법 정의  
- 훈련 하이퍼파라미터: 모델 훈련 방법 정의  
- 컴퓨팅 파워와 전문가의 모니터링 필요  
- 사전 훈련된 모델의 가중치는 추론에 사용됨  
  
### 2022년, 크기 경쟁에서 데이터 경쟁으로  
  
- 2022년초까지는 모델 크기가 성능에 중요한 요소  
- BLOOM, OPT, GLM-130B 등의 모델 출시  
- DeepMind의 새로운 연구로 데이터 크기의 중요성이 강조 되며 패러다임 전환  
  
### 2023년, 오픈 릴리스의 해  
  
- 작은 LLM의 부상 : 2월에는 LLaMA(Meta), 4월에는 Pythia(Eleuther AI), 5월에는 MPT(MosaicML) , 6월에는 X-GEN(Salesforce), Falcon(TIIUAE), 7월에는 Llama 2(Meta)가 출시되었습니다. 9월에는 Qwen(Alibaba) 및 Mistral(Mistral.AI), 11월에는 Yi(01-ai), 12월에는 DeciLM(Deci), Phi-2(Microsoft) 및 SOLAR(Upstage) 출시  
- 모델 가중치가 포함됭고 있고, 작은측 모델에서 좋은 성능을 보여서 커뮤니티에서 빠르게 채택   
- 핵심 차이점은 훈련 데이터와 모델 라이센스   
  
### 대화형 모델의 등장  
  
- 2023년에는 대부분의 사전 훈련된 모델이 대화형 버전과 함께 출시됨  
- 채팅 기반 파인튜닝, 인스트럭션 파인튜닝, 인간 피드백에서 강화 학습(RLHF), DPO(Direct Preference Optimzation) 등의 방법 사용  
- MPT, Falcon, XGen, Llama-2, Qwen, Yi, DeciLM 모델의 대화형 버전 출시  
  
### 커뮤니티의 역할  
  
- 커뮤니티와 연구자들은 제공된 기본 모델을 활용하여 새로운 데이터셋과 미세 조정 모델 개발  
- 다양한 데이터셋과 미세 조정 전략의 출시  
  - Human Preference: OpenAI의 WebGPT 데이터세트, HH-RLHF 데이터세트(Anthropic) 및 Summarize(OpenAI)  
  - Instruction : Public Pool of Prompts by BigScience, FLAN 1 and 2 by Google, Natural Instructions by AllenAI, Self Instruct,  SuperNatural instructions, Unnatural instructions  
  - Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..  
  
### 접근성의 대중화  
  
- 모델/데이터 병합: 모델의 무게를 결합하여 강점을 통합  
- PEFT: 전체 모델을 사용하지 않고도 미세 조정 가능  
- 양자화: 모델 크기를 줄이는 기술로 더 많은 사람들이 LLM을 사용할 수 있게 함  
  
### 다음은 무엇인가?  
  
- Transformer를 능가할 새로운 아키텍처의 출현과 성능 향상  
- Mixtral, Mamba, Striped Hyena 등의 새로운 모델 출시

## Comments


### Comment 21659

- Author: laeyoung
- Created: 2023-12-22T10:19:14+09:00
- Points: 1

좋은 오픈소스 모델들 많이 나와서 좋긴 했네요. LLaMA도 그렇고 Web에서도 돌아가게 제공해주는 오픈소스 모델도 그렇고 이것저것 받아서 많이 해봤었구요. 그런데 실제 쓰고 일상에서 쓰고 있는 건 ChatGPT 또는 GPT-4 가져다가 SaaS로 제공하는 친구들만 있으니, 좀 아이러니하긴 합니다. 오픈소스 모델도 중요하지만 결국 안정적으로 돌려줄 인프라랑 그걸 또 안정적으로 지원해줄 재정적 후원자(?)가 없으면 어려워서 그러나 하는 생각이 드네요.