7P by xguru 2023-02-28 | favorite | 댓글과 토론
  • 7B, 13B, 33B, 65B 의 4가지 사이즈로 공개
  • 훨씬 작은 규모지만, 데이터 학습 강화 및 파인 튜닝하여 더 큰 규모의 모델과 비교가능한 효율적인 모델
  • 33B/65B는 1조 4천억개의 토큰으로 훈련됨(7B는 1조)
  • "13B 모델이 175B인 GPT-3보다 뛰어나고, 65B는 훨씬 더 큰 Chinchilla70B 및 PaLM-540B 와 경쟁 가능"
  • 인공지능 연구등 비상업적 용도로만 활용 가능(신청하여 승인 필요)