24P by xguru 2023-04-20 | favorite | 댓글 2개
  • 3B/7B 모델을 공개, 15B/30B/65B 모델도 공개 예정이고 175B까지 계획중
  • 모델은 CC BY-SA-4.0 라이센스로 출처 표기시 상업적 이용 가능
  • 오픈 데이터셋인 The Pile에 기반했지만 3배 크기인 1.5T 토큰을 가지는 새로운 데이터셋으로 훈련
  • 컨텍스트 길이는 4096 토큰
  • PoC로 Alpaca 프로시져를 따라서 파인튜닝한 StableLM-Tuned-Alpha-7B 모델도 공개
    • 5개의 대화형 데이터셋을 이용 : Stanford's Alpaca, Nomic-AI's gpt4all, RyokoAI's ShareGPT52K datasets, Databricks labs' Dolly, Anthropic's HH
    • 챗봇 데모는 Hugging Face에 공개

Stable Diffusion 공개로 시장 가속이 일어났듯이, 언어 모델도 이제 공개적으로 사용가능한 데이터와 사용 사례들이 쏟아지겠네요.