3P by xguru 2021-02-19 | favorite | 댓글과 토론

- 기존 T5(Text-to-Text Transfer Transformer) 모델 대비 7x의 학습속도 개선
- Switch Routing 이라는 변형 MoE(Mixture-of-Experts) 알고리듬으로, 입력되는 값별로 다른 파라미터를 적용
- 모델 학습을 위해 Mesh-Tensorflow 사용 (Model Parallelism)