Meta Llama 3에 대한 Andrej Karpathy의 평가

(twitter.com/karpathy)

토크나이저

Llama 2에서는 큰 모델만 Grouped Query Attention(GQA)를 사용했지만, 이제 가장 작은 8B 모델을 포함한 모든 모델이 GQA를 사용
GQA는 Attention의 키/값에 대한 파라미터 공유 체계로, 추론 중 KV 캐시의 크기를 줄임
이는 복잡성을 줄이고 최적화하는 좋고 환영받을 만한 수정사항임

15T는 8B 매개변수와 같은 "작은" 모델에 대해 학습하기에 매우 큰 데이터셋이며, 이는 일반적으로 수행되지 않는 새롭고 매우 환영할 만한 일임
Chinchilla "compute optimal" 포인트에서 8B 모델을 학습시키려면 ~200B 토큰 정도 학습시켜야 함
모델 성능에 대한 "bang-for-the-buck"에만 관심이 있다면 이 정도면 충분함
하지만 Meta는 그 지점을 ~75배 넘어 학습시켰는데, 이는 비정상적이지만 개인적으로 매우 환영할 만한 일이라고 생각함.
우리 모두는 매우 작고 작업하기 쉬우며 추론이 쉬운 매우 유능한 모델을 얻게 됨
Meta는 이 지점에서도 모델이 표준적인 의미에서 "수렴"하는 것 같지 않다고 언급함
즉, 우리가 항상 작업하는 LLM은 100-1000배 이상의 훨씬 더 긴 학습이 부족하며 수렴점에 근접하지 않음
앞으로 더 오랫동안 학습되고 훨씬 더 작은 모델을 공개하는 추세가 계속되기를 바람

Llama 3는 16K GPU에서 관찰된 처리량이 400 TFLOPS로 학습되었다고 언급됨
언급되지는 않았지만 이들이 NVIDIA 마케팅 자료에서 1,979 TFLOPS를 기록하는 H100 fp16이라고 가정
하지만 우리는 모두 그들의 작은 별표(*with sparsity)가 많은 일을 하고 있다는 것을 알고 있으며, 실제 TFLOPS를 얻으려면 이 숫자를 2로 나누어 ~990을 얻어야 함
(Sparsity가 FLOPS로 계산되는 이유는 무엇일까?)
어쨌거나 400/990 ~= 40% 활용률로, 그 많은 GPU에서 꽤 나쁘지 않음!
이 규모에서 여기에 도달하려면 많은 양의 정말 탄탄한 엔지니어링이 필요함