7P by xguru 2021-01-19 | favorite | 댓글과 토론

- GPT-3+ 사이즈로 스케일 가능한 두가지 구현체를 개발중
ㅤ→ GPT-Neo : Tensorflow-mesh(TPU) 기반 코드
ㅤ→ GPT-Neox : DeepSpeed(GPU) 기반 코드
- 현재 GPT-2 규모는 학습완료하고 모델 평가 검토
- 단일 단계 학습으로 2천억개 파라미터 까지 테스트