7P by xguru 2023-05-08 | favorite | 댓글 2개
  • 완전한 개방형 언어 모델을 만들기 위한 프로젝트
  • 3주전 공개한 RedPajama-Data-1T 데이터셋을 기반으로 3B(완료), 7B(프리뷰) 파라미터의 RedPajama-INCITE 모델들을 공개
    • Base 모델
    • Instruction-Tuned 모델
    • Chat 모델
  • 3B 모델은 동급에서 가장 강력. 크기가 작아서 빠르고 5년전 출시된 RTX 2070 같은 장비에서도 실행 가능
  • 명령어 튜닝 버전의 7B 모델은 HELM 벤치마크에서 LLaMA 7B 보다 3점 더 높음
  • 7B 모델(훈련 80% 완료)은 이미 Pythia 7B 모델을 뛰어넘음
  • 몇주내로 7B 훈련이 완료되면, LLaMA 7B를 넘어설 것
  • 3B 모델은 8000억개의 토큰으로 안정화 되었고, 7B 모델은 1조개의 토큰으로 훈련완료중이며 개선중

연구나 AI 발전에 중요한 사건이지만,
이런 모델들은 상업적으로 이용 시 문제가 되는 부분에 대한 해결책을 제시하지 않을 가능성이 높습니다.
상업적으로는 모델 사용과 더불어 튜닝이나 추가적인 필터를 구비해야하는 등의 작업이 꼭 동반되어야할 것 같아요.