- 대규모 언어 모델(LLM)에 대한 대중의 관심이 증가하고, 오픈 소스와 비공개 소스에 대한 논의가 확산됨
Pretrained LLM을 위한 레시피
- 모델 아키텍처: 특정 구현과 수학적 형태를 설명
- 훈련 데이터셋: 모델이 학습하는 예시와 문서를 포함
- 토크나이저: 텍스트를 숫자로 변환하는 방법 정의
- 훈련 하이퍼파라미터: 모델 훈련 방법 정의
- 컴퓨팅 파워와 전문가의 모니터링 필요
- 사전 훈련된 모델의 가중치는 추론에 사용됨
2022년, 크기 경쟁에서 데이터 경쟁으로
- 2022년초까지는 모델 크기가 성능에 중요한 요소
- BLOOM, OPT, GLM-130B 등의 모델 출시
- DeepMind의 새로운 연구로 데이터 크기의 중요성이 강조 되며 패러다임 전환
2023년, 오픈 릴리스의 해
- 작은 LLM의 부상 : 2월에는 LLaMA(Meta), 4월에는 Pythia(Eleuther AI), 5월에는 MPT(MosaicML) , 6월에는 X-GEN(Salesforce), Falcon(TIIUAE), 7월에는 Llama 2(Meta)가 출시되었습니다. 9월에는 Qwen(Alibaba) 및 Mistral(Mistral.AI), 11월에는 Yi(01-ai), 12월에는 DeciLM(Deci), Phi-2(Microsoft) 및 SOLAR(Upstage) 출시
- 모델 가중치가 포함됭고 있고, 작은측 모델에서 좋은 성능을 보여서 커뮤니티에서 빠르게 채택
- 핵심 차이점은 훈련 데이터와 모델 라이센스
대화형 모델의 등장
- 2023년에는 대부분의 사전 훈련된 모델이 대화형 버전과 함께 출시됨
- 채팅 기반 파인튜닝, 인스트럭션 파인튜닝, 인간 피드백에서 강화 학습(RLHF), DPO(Direct Preference Optimzation) 등의 방법 사용
- MPT, Falcon, XGen, Llama-2, Qwen, Yi, DeciLM 모델의 대화형 버전 출시
커뮤니티의 역할
- 커뮤니티와 연구자들은 제공된 기본 모델을 활용하여 새로운 데이터셋과 미세 조정 모델 개발
- 다양한 데이터셋과 미세 조정 전략의 출시
- Human Preference: OpenAI의 WebGPT 데이터세트, HH-RLHF 데이터세트(Anthropic) 및 Summarize(OpenAI)
- Instruction : Public Pool of Prompts by BigScience, FLAN 1 and 2 by Google, Natural Instructions by AllenAI, Self Instruct, SuperNatural instructions, Unnatural instructions
- Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..
접근성의 대중화
- 모델/데이터 병합: 모델의 무게를 결합하여 강점을 통합
- PEFT: 전체 모델을 사용하지 않고도 미세 조정 가능
- 양자화: 모델 크기를 줄이는 기술로 더 많은 사람들이 LLM을 사용할 수 있게 함
다음은 무엇인가?
- Transformer를 능가할 새로운 아키텍처의 출현과 성능 향상
- Mixtral, Mamba, Striped Hyena 등의 새로운 모델 출시