19P by xguru 4달전 | favorite | 댓글 1개
  • 대규모 언어 모델(LLM)에 대한 대중의 관심이 증가하고, 오픈 소스와 비공개 소스에 대한 논의가 확산됨

Pretrained LLM을 위한 레시피

  • 모델 아키텍처: 특정 구현과 수학적 형태를 설명
  • 훈련 데이터셋: 모델이 학습하는 예시와 문서를 포함
  • 토크나이저: 텍스트를 숫자로 변환하는 방법 정의
  • 훈련 하이퍼파라미터: 모델 훈련 방법 정의
  • 컴퓨팅 파워와 전문가의 모니터링 필요
  • 사전 훈련된 모델의 가중치는 추론에 사용됨

2022년, 크기 경쟁에서 데이터 경쟁으로

  • 2022년초까지는 모델 크기가 성능에 중요한 요소
  • BLOOM, OPT, GLM-130B 등의 모델 출시
  • DeepMind의 새로운 연구로 데이터 크기의 중요성이 강조 되며 패러다임 전환

2023년, 오픈 릴리스의 해

  • 작은 LLM의 부상 : 2월에는 LLaMA(Meta), 4월에는 Pythia(Eleuther AI), 5월에는 MPT(MosaicML) , 6월에는 X-GEN(Salesforce), Falcon(TIIUAE), 7월에는 Llama 2(Meta)가 출시되었습니다. 9월에는 Qwen(Alibaba) 및 Mistral(Mistral.AI), 11월에는 Yi(01-ai), 12월에는 DeciLM(Deci), Phi-2(Microsoft) 및 SOLAR(Upstage) 출시
  • 모델 가중치가 포함됭고 있고, 작은측 모델에서 좋은 성능을 보여서 커뮤니티에서 빠르게 채택
  • 핵심 차이점은 훈련 데이터와 모델 라이센스

대화형 모델의 등장

  • 2023년에는 대부분의 사전 훈련된 모델이 대화형 버전과 함께 출시됨
  • 채팅 기반 파인튜닝, 인스트럭션 파인튜닝, 인간 피드백에서 강화 학습(RLHF), DPO(Direct Preference Optimzation) 등의 방법 사용
  • MPT, Falcon, XGen, Llama-2, Qwen, Yi, DeciLM 모델의 대화형 버전 출시

커뮤니티의 역할

  • 커뮤니티와 연구자들은 제공된 기본 모델을 활용하여 새로운 데이터셋과 미세 조정 모델 개발
  • 다양한 데이터셋과 미세 조정 전략의 출시
    • Human Preference: OpenAI의 WebGPT 데이터세트, HH-RLHF 데이터세트(Anthropic) 및 Summarize(OpenAI)
    • Instruction : Public Pool of Prompts by BigScience, FLAN 1 and 2 by Google, Natural Instructions by AllenAI, Self Instruct, SuperNatural instructions, Unnatural instructions
    • Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..

접근성의 대중화

  • 모델/데이터 병합: 모델의 무게를 결합하여 강점을 통합
  • PEFT: 전체 모델을 사용하지 않고도 미세 조정 가능
  • 양자화: 모델 크기를 줄이는 기술로 더 많은 사람들이 LLM을 사용할 수 있게 함

다음은 무엇인가?

  • Transformer를 능가할 새로운 아키텍처의 출현과 성능 향상
  • Mixtral, Mamba, Striped Hyena 등의 새로운 모델 출시

좋은 오픈소스 모델들 많이 나와서 좋긴 했네요. LLaMA도 그렇고 Web에서도 돌아가게 제공해주는 오픈소스 모델도 그렇고 이것저것 받아서 많이 해봤었구요. 그런데 실제 쓰고 일상에서 쓰고 있는 건 ChatGPT 또는 GPT-4 가져다가 SaaS로 제공하는 친구들만 있으니, 좀 아이러니하긴 합니다. 오픈소스 모델도 중요하지만 결국 안정적으로 돌려줄 인프라랑 그걸 또 안정적으로 지원해줄 재정적 후원자(?)가 없으면 어려워서 그러나 하는 생각이 드네요.