Llama 3 8B는 Wizard 2 8x22B에 필적하는 성능을 보임

(huggingface.co)

3P by GN⁺ 2024-04-22 | ★ favorite | 댓글 1개

Meta-Llama-3-8B-Instruct의 성능

8B 모델이면서도 Wizard 22B와 거의 대등한 성능을 보임
기존의 70B 모델보다도 뛰어난 추론 능력을 보여줌
문제 풀이나 코딩 능력 등 다양한 영역에서 매우 우수한 성능을 보임

Meta-Llama-3-8B-Instruct의 특징

Meta에서 massive한 자원을 투입하여 장시간 동안 더 많은 데이터로 학습한 결과물
개발사와 하드웨어에 따라 성능 차이가 있음. 추론 파라미터에 따라서도 결과가 달라짐
FP16 버전에서 Q8_0과 거의 동일한 성능을 보임. 8B에서 이정도 성능이면 양자화 모델로써는 최상의 수준
생성 내용이 까칠하고 재치있는 부분이 있음. 문장의 의도를 파악하고 적절하게 대응함

GN⁺의 의견

단일 질의에 대해서는 신뢰성 있는 답변을 제공하지만, 대화형 멀티턴에서는 아직 한계를 보임. 프롬프트 템플릿 최적화나 하이퍼파라미터 튜닝을 통해 개선이 필요함
3B 모델에 비해 8B 모델의 성능이 매우 우수하므로, 8B급 모델을 다양하게 파인튜닝하여 특화된 모델을 만드는 것이 유망해보임
언어 이해력과 추론 능력이 뛰어나므로, 지식 집약적인 분야나 전문 영역에서의 활용 가능성이 높음. 의료, 법률, 금융 등의 도메인에 특화된 모델로 발전시킬 수 있을 것임
Meta의 자원과 기술력으로 8B 모델을 이 정도 수준으로 끌어올린 것은 대단한 성과임. 향후 개인용 PC에서도 고성능 AI 모델을 구동할 수 있게 될 전망임
8B와 70B 사이의 중간 규모 모델이 공개되지 않은 점이 아쉬움. 32B 정도 크기의 모델이 나온다면 최적의 성능과 효율성을 보일 것으로 기대됨

▲

GN⁺ 2024-04-22 [-]

Hacker News 의견

Llama 3 8B 모델은 작은 모델을 매우 오랫동안 학습시키면 어떤 결과가 나오는지에 대한 질문에 대답함. 이는 Mistral 모델에서 시작된 추세로, Llama 3에서는 더 심화됨. 8B 파라미터 모델에 15T 토큰을 사용하는 것은 지금까지 보지 못했던 수준임.
작은 모델의 품질 향상에 대해 기대감을 높여주는 릴리스임.
Llama 3는 수다스러워 보이며, 일부 잘못된 가정을 하는 것 같음. 예를 들어, 하늘을 보고 침을 뱉으면 구름에 닿을 수 있다고 상상력을 발휘했다가, 현실은 그렇지 않다고 스스로 정정함.
이런 결과가 더 많은 학습과 그로 인한 능력 향상에서 비롯된 것인지, 아니면 이런 수수께끼가 이제 잘 알려져서 학습 자료에 잘 표현되기 때문인지 궁금함.
Llama 3의 특별한 점은 학습 데이터 중복 제거(품질)와 학습 데이터 증가(양)에 추가 노력을 기울이고, 4배 더 많은 코드를 학습 자료로 사용한 것(추론에 좋음)임.
학습 데이터 큐레이션과 생성에 더 많은 노력을 기울임으로써 이런 작은 모델에서도 엄청난 성능 향상을 기대해 볼 수 있을지도 모름.
Llama 3는 여전히 Mixture of Experts(MoE)를 사용하지 않음. 이는 거대한 MoE 모델 생성이 낭비일 수 있음을 시사함.
Meta는 Nvidia AI 칩에 수십억 달러를 쓰고 있음. 앞으로 5년 내에 휴대폰과 노트북에서 GPT-4 수준의 8B 모델 실행이 가능해 보임.
8b-instruct 모델의 논리력에 깊은 인상을 받음. 작은 모델의 미래가 기대됨.
로컬 LLM의 가장 큰 문제는 사람들이 사용 방식에 따라 다른 인상을 받을 수 있다는 점임.
대부분의 회사는 모델 학습을 계속 진행하며, 학습이 끝나는 시점은 없음. 이는 GPU 지출이 막대한 이유를 설명해줌.
오늘 당장 이 모델을 휴대폰에서 실행하려면 먼저 llama.cpp를 Termux에서 실행하고 ggml 등의 모델 파일을 로드하는 것부터 시작해야 함.
8B 모델이 "1kg의 철과 2kg의 깃털 중 무엇이 더 무거운가?"라는 질문을 틀리는 것에 놀라움. GPT-3.5도 틀렸지만, 70B 모델과 GPT-4는 맞힘.

답변달기