3P by neo with xguru 27일전 | favorite | 댓글 1개

Meta-Llama-3-8B-Instruct의 성능

  • 8B 모델이면서도 Wizard 22B와 거의 대등한 성능을 보임
  • 기존의 70B 모델보다도 뛰어난 추론 능력을 보여줌
  • 문제 풀이나 코딩 능력 등 다양한 영역에서 매우 우수한 성능을 보임

Meta-Llama-3-8B-Instruct의 특징

  • Meta에서 massive한 자원을 투입하여 장시간 동안 더 많은 데이터로 학습한 결과물
  • 개발사와 하드웨어에 따라 성능 차이가 있음. 추론 파라미터에 따라서도 결과가 달라짐
  • FP16 버전에서 Q8_0과 거의 동일한 성능을 보임. 8B에서 이정도 성능이면 양자화 모델로써는 최상의 수준
  • 생성 내용이 까칠하고 재치있는 부분이 있음. 문장의 의도를 파악하고 적절하게 대응함

GN⁺의 의견

  • 단일 질의에 대해서는 신뢰성 있는 답변을 제공하지만, 대화형 멀티턴에서는 아직 한계를 보임. 프롬프트 템플릿 최적화나 하이퍼파라미터 튜닝을 통해 개선이 필요함
  • 3B 모델에 비해 8B 모델의 성능이 매우 우수하므로, 8B급 모델을 다양하게 파인튜닝하여 특화된 모델을 만드는 것이 유망해보임
  • 언어 이해력과 추론 능력이 뛰어나므로, 지식 집약적인 분야나 전문 영역에서의 활용 가능성이 높음. 의료, 법률, 금융 등의 도메인에 특화된 모델로 발전시킬 수 있을 것임
  • Meta의 자원과 기술력으로 8B 모델을 이 정도 수준으로 끌어올린 것은 대단한 성과임. 향후 개인용 PC에서도 고성능 AI 모델을 구동할 수 있게 될 전망임
  • 8B와 70B 사이의 중간 규모 모델이 공개되지 않은 점이 아쉬움. 32B 정도 크기의 모델이 나온다면 최적의 성능과 효율성을 보일 것으로 기대됨
Hacker News 의견
  • Llama 3 8B 모델은 작은 모델을 매우 오랫동안 학습시키면 어떤 결과가 나오는지에 대한 질문에 대답함. 이는 Mistral 모델에서 시작된 추세로, Llama 3에서는 더 심화됨. 8B 파라미터 모델에 15T 토큰을 사용하는 것은 지금까지 보지 못했던 수준임.
  • 작은 모델의 품질 향상에 대해 기대감을 높여주는 릴리스임.
  • Llama 3는 수다스러워 보이며, 일부 잘못된 가정을 하는 것 같음. 예를 들어, 하늘을 보고 침을 뱉으면 구름에 닿을 수 있다고 상상력을 발휘했다가, 현실은 그렇지 않다고 스스로 정정함.
  • 이런 결과가 더 많은 학습과 그로 인한 능력 향상에서 비롯된 것인지, 아니면 이런 수수께끼가 이제 잘 알려져서 학습 자료에 잘 표현되기 때문인지 궁금함.
  • Llama 3의 특별한 점은 학습 데이터 중복 제거(품질)와 학습 데이터 증가(양)에 추가 노력을 기울이고, 4배 더 많은 코드를 학습 자료로 사용한 것(추론에 좋음)임.
  • 학습 데이터 큐레이션과 생성에 더 많은 노력을 기울임으로써 이런 작은 모델에서도 엄청난 성능 향상을 기대해 볼 수 있을지도 모름.
  • Llama 3는 여전히 Mixture of Experts(MoE)를 사용하지 않음. 이는 거대한 MoE 모델 생성이 낭비일 수 있음을 시사함.
  • Meta는 Nvidia AI 칩에 수십억 달러를 쓰고 있음. 앞으로 5년 내에 휴대폰과 노트북에서 GPT-4 수준의 8B 모델 실행이 가능해 보임.
  • 8b-instruct 모델의 논리력에 깊은 인상을 받음. 작은 모델의 미래가 기대됨.
  • 로컬 LLM의 가장 큰 문제는 사람들이 사용 방식에 따라 다른 인상을 받을 수 있다는 점임.
  • 대부분의 회사는 모델 학습을 계속 진행하며, 학습이 끝나는 시점은 없음. 이는 GPU 지출이 막대한 이유를 설명해줌.
  • 오늘 당장 이 모델을 휴대폰에서 실행하려면 먼저 llama.cpp를 Termux에서 실행하고 ggml 등의 모델 파일을 로드하는 것부터 시작해야 함.
  • 8B 모델이 "1kg의 철과 2kg의 깃털 중 무엇이 더 무거운가?"라는 질문을 틀리는 것에 놀라움. GPT-3.5도 틀렸지만, 70B 모델과 GPT-4는 맞힘.