16P by xguru 2021-11-10 | favorite | 댓글 1개

- GPT-3가 AI시장에 큰 충격을 준 건 맞음 : "text-in text-out" 에 강한 초대규모 AI 모델
- 유료 였기 때문에 많은 조직들이 각자 버전의 GPT-3 비슷한 모델을 만들기 시작
ㅤ→ 필요한 컴퓨팅 파워때문에 쉽지는 않음. 175B 파라미터짜리 OpenAI는 MS와 협업해서 1만개의 GPU와 45테라 텍스트 데이터를 이용
ㅤ→ 계산해보면 GPT-3를 훈련하는데 100~200억원 정도가 소요
- 다양한 시도들이 나옴
ㅤ→ EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG

- 놀랍게도 GPT-3와 비슷한 걸 만드는 첫번째 노력은 오픈소스 참여자들이 만든 "EleutherAI"
ㅤ→ GPT-3와 비슷한 데이터 셋인 "The Pile"을 공개
ㅤ→ 그 이후 GPT-Neo 1.3B, 2.7B 같은 작은 버전부터 최근 6B 파라미터짜리 GPT-J-6B 를 공개했음

- GPT-3 발표 6개월 뒤에 중국 칭화대의 연구자들과 BAAI(베이징 AI 아카데미)가 함께 CPM(Chinese Pre-trained Language Model) 을 공개
ㅤ→ 100GB 중국어 텍스트에서 2.6B 파라미터 모델을 생성. GPT-3에는 못 미치지만 중국어 텍스트로 했다는 것에서 주목
- 그 얼마 후 Huawei가 200B 파라미터셋의 PanGu-α(1.1TB의 중국어 텍스트 사용) 공개

- Naver가 204B 파라미터 짜리 HyperCLOVA 발표
- 이스라엘의 AI21 Labs가 178B 짜리 Jurassic-1 공개
- NVIDIA 와 MS가 530B 파라미터 모델의 Megatron-Turing NLG 공개

- 본질적으로 GPT-3와 유사한 점점 더 거대한 모델이 생성되고 있으며 몇년 동안 더 커질 것
- 이런 대규모 모델을 교육하는데 수십억 달러의 투자가 필요한 추세는 당분간 유지 될 것
ㅤ→ 자금 지원이 풍부한 기업들만이 이런 모델을 만들수 있다는 것은 염려스러움

- 얼마나 이런 트렌드가 유지될 지, GPT-3 이상의 주요한 발견이 이뤄질 지 등은 예측하기 어려움
- 현재 우리는 이런 여정의 한가운데에 있으며, 앞으로 몇 년 동안 어떤 일이 일어나는지 지켜보는 것이 흥미로울 것

- GPT-Neo : GPT-3 규모의 모델을 오픈소스/무료로 만드는 프로젝트 https://news.hada.io/topic?id=3599
- MS와 Nvidia가 세계 최대규모 언어 모델 MT-NLG 530B를 발표 https://news.hada.io/topic?id=5187