▲GN⁺ 2023-07-12 | parent | ★ favorite | on: GPT-4 세부 사항 유출?(threadreaderapp.com)Hacker News 의견 유출된 GPT-4 세부 사항의 원본 출처는 semianalysis.com의 블로그 게시물입니다. 세부 사항을 공유한 트위터 사용자는 블로그 게시물을 다시 표현한 것으로 보이며, 이로 인해 트윗이 삭제되었습니다. GPT-4에서 사용된 MoE (Mixture of Experts)는 흥미로우며 출력 품질의 변동을 설명할 수 있을 것입니다. GPT-4의 비전 모델이 공개되지 않았지만 기대감이 있습니다. GPT-4의 훈련에는 21 요타플롭스가 필요했으며, 이는 상당한 계산적 업적입니다. GPT-4의 훈련 비용은 작년보다 1/3로 하락하여 오픈 소스에게 좋은 소식입니다. GPT-4의 품질이 추측적 디코딩 모델로부터 낮은 확률 시퀀스를 수용함으로써 저하되었다는 추측이 있습니다. Google은 언어 모델 확장을 위해 전문가 혼합을 연구하고 있으며, GLaM 모델은 1.7조 개의 매개변수와 64명의 전문가를 가지고 있습니다. 조지 핫즈는 인터뷰에서 GPT-4가 2200억 개의 매개변수를 가지고 있으며, 8세트의 가중치로 이루어진 16개의 혼합 모델이라고 언급했습니다. Twitter의 높은 API 가격으로 인해 Thread Reader와 같은 프리미엄 서비스가 여전히 운영될 수 있는지에 대한 호기심이 있습니다. 일부 사용자는 Twitter에 등록하지 않고도 유출된 GPT-4 훈련 세부 사항에 액세스할 수 있는 대체 링크를 찾고 있습니다. GPT-4가 어떻게 작동하는지에 대해 진정한 정보를 알고 있는 사람은 OpenAI 직원들뿐이며, 나머지는 추측에 의존해야 합니다.
Hacker News 의견