RedPajama 3B, 7B 모델 공개

(together.xyz)

완전한 개방형 언어 모델을 만들기 위한 프로젝트
3주전 공개한 RedPajama-Data-1T 데이터셋을 기반으로 3B(완료), 7B(프리뷰) 파라미터의 RedPajama-INCITE 모델들을 공개
- Base 모델
- Instruction-Tuned 모델
- Chat 모델
3B 모델은 동급에서 가장 강력. 크기가 작아서 빠르고 5년전 출시된 RTX 2070 같은 장비에서도 실행 가능
명령어 튜닝 버전의 7B 모델은 HELM 벤치마크에서 LLaMA 7B 보다 3점 더 높음
7B 모델(훈련 80% 완료)은 이미 Pythia 7B 모델을 뛰어넘음
몇주내로 7B 훈련이 완료되면, LLaMA 7B를 넘어설 것
3B 모델은 8000억개의 토큰으로 안정화 되었고, 7B 모델은 1조개의 토큰으로 훈련완료중이며 개선중

연구나 AI 발전에 중요한 사건이지만,
이런 모델들은 상업적으로 이용 시 문제가 되는 부분에 대한 해결책을 제시하지 않을 가능성이 높습니다.
상업적으로는 모델 사용과 더불어 튜닝이나 추가적인 필터를 구비해야하는 등의 작업이 꼭 동반되어야할 것 같아요.