9P by jonghwanhyeon 2023-10-31 | favorite | 댓글 5개

Microsoft Research에서 EMNLP 2023에 제출한 논문인 "CodeFusion: A Pre-trained Diffusion Model for Code Generation"에서 ChatGPT(gpt-3.5-turbo)의 파라메터 개수가 20B로 공개되었습니다.

  • T5 (t5-large): 770M
  • CodeT5 (codet5-large): 770M
  • GPT3 (text-davinci-003): 175B
  • ChatGPT (gpt-turbo-3.5): 20B

이 사이즈가 말이 되나요? 인공지능 하시는 분들 얘기 들어보니 경악하시던데...
All you need is 4090

원래 GPT3.5도 parameter size가 공개가 안되어있었나요?
저는 단순히 GPT-3 175B에 RLHF한건줄 알았는데 아닌거였나보군요..

"There are some errors in the paper and we need to retract it" 라고 하네요

에러가 있는 곳이 어디인지는 모르겠지만 숫자 몇몇개가 틀린거면 단순 revision을 했을테니.. 20B이 맞을 가능성이 높겠죠?