Llama 3 8B는 Wizard 2 8x22B에 필적

▲

GN⁺ 2024-04-22 | parent | ★ favorite | on: Llama 3 8B는 Wizard 2 8x22B에 필적하는 성능을 보임(huggingface.co)

Hacker News 의견

Llama 3 8B 모델은 작은 모델을 매우 오랫동안 학습시키면 어떤 결과가 나오는지에 대한 질문에 대답함. 이는 Mistral 모델에서 시작된 추세로, Llama 3에서는 더 심화됨. 8B 파라미터 모델에 15T 토큰을 사용하는 것은 지금까지 보지 못했던 수준임.
작은 모델의 품질 향상에 대해 기대감을 높여주는 릴리스임.
Llama 3는 수다스러워 보이며, 일부 잘못된 가정을 하는 것 같음. 예를 들어, 하늘을 보고 침을 뱉으면 구름에 닿을 수 있다고 상상력을 발휘했다가, 현실은 그렇지 않다고 스스로 정정함.
이런 결과가 더 많은 학습과 그로 인한 능력 향상에서 비롯된 것인지, 아니면 이런 수수께끼가 이제 잘 알려져서 학습 자료에 잘 표현되기 때문인지 궁금함.
Llama 3의 특별한 점은 학습 데이터 중복 제거(품질)와 학습 데이터 증가(양)에 추가 노력을 기울이고, 4배 더 많은 코드를 학습 자료로 사용한 것(추론에 좋음)임.
학습 데이터 큐레이션과 생성에 더 많은 노력을 기울임으로써 이런 작은 모델에서도 엄청난 성능 향상을 기대해 볼 수 있을지도 모름.
Llama 3는 여전히 Mixture of Experts(MoE)를 사용하지 않음. 이는 거대한 MoE 모델 생성이 낭비일 수 있음을 시사함.
Meta는 Nvidia AI 칩에 수십억 달러를 쓰고 있음. 앞으로 5년 내에 휴대폰과 노트북에서 GPT-4 수준의 8B 모델 실행이 가능해 보임.
8b-instruct 모델의 논리력에 깊은 인상을 받음. 작은 모델의 미래가 기대됨.
로컬 LLM의 가장 큰 문제는 사람들이 사용 방식에 따라 다른 인상을 받을 수 있다는 점임.
대부분의 회사는 모델 학습을 계속 진행하며, 학습이 끝나는 시점은 없음. 이는 GPU 지출이 막대한 이유를 설명해줌.
오늘 당장 이 모델을 휴대폰에서 실행하려면 먼저 llama.cpp를 Termux에서 실행하고 ggml 등의 모델 파일을 로드하는 것부터 시작해야 함.
8B 모델이 "1kg의 철과 2kg의 깃털 중 무엇이 더 무거운가?"라는 질문을 틀리는 것에 놀라움. GPT-3.5도 틀렸지만, 70B 모델과 GPT-4는 맞힘.