GPT-Neo : GPT-3 규모의 모델을 오픈소스/무료로 만드는 프로젝트
(github.com)- GPT-3+ 사이즈로 스케일 가능한 두가지 구현체를 개발중
ㅤ→ GPT-Neo : Tensorflow-mesh(TPU) 기반 코드
ㅤ→ GPT-Neox : DeepSpeed(GPU) 기반 코드
- 현재 GPT-2 규모는 학습완료하고 모델 평가 검토
- 단일 단계 학습으로 2천억개 파라미터 까지 테스트
- GPT-3+ 사이즈로 스케일 가능한 두가지 구현체를 개발중
ㅤ→ GPT-Neo : Tensorflow-mesh(TPU) 기반 코드
ㅤ→ GPT-Neox : DeepSpeed(GPU) 기반 코드
- 현재 GPT-2 규모는 학습완료하고 모델 평가 검토
- 단일 단계 학습으로 2천억개 파라미터 까지 테스트