11P by neo 2023-09-28 | favorite | 댓글 1개
  • 현재까지 가장 강력한 언어 모델
  • 7.3B 파라미터 모델로, 모든 벤치마크에서 Llama 2 13B를, 많은 벤치마크에서는 Llama 1 34B를 능가
  • 더 빠른 추론을 위한 Grouped-query attention (GQA)과 더 작은 비용으로 더 긴 시퀀스를 처리하기 위한 Sliding Window Attention (SWA)를 사용
  • Apache 2.0 라이선스로, 제한 없이 사용 가능
  • 어떤 클라우드(AWS/GCP/Azure)에서도 vLLM 추론 서버와 skypilot를 사용하여 배포할 수 있으며, HuggingFace에서도 사용할 수 있음
  • 쉽게 미세 조정할 수 있으며, 채팅용으로 미세 조정된 모델은 Llama 2 13B 채팅을 능가
Hacker News 의견
  • Mistral, Meta와 DeciLM과 달리 이 클래스의 모델에 Apache 라이선스를 부여한 첫 회사입니다.
  • 이 모델은 MacBook Air M1에서 잘 작동하며 GPT3.5와 비교할 수 있습니다.
  • JSON과 같은 구조화된 데이터를 처리하기 위한 "함수 호출 API"의 사용 가능성에 대한 질문이 있습니다.
  • 모델 훈련에 사용된 데이터셋에 대한 우려와 벤치마크 유출이 결과를 부풀릴 가능성이 제기되었습니다.
  • 모델의 발표는 Twitter의 토렌트 트래커 URI를 통해 이루어졌습니다.
  • LLMs를 위한 코딩 보조 도구 테스트에서 Mistral이 CodeLlama와 GPT4만큼 잘 수행하지 못했습니다.
  • 모델은 llama.cpp에 의해 지원되기 때문에 macOS의 FreeChat에서 작동합니다.
  • 프로젝트가 왜 7B 모델과 같은 큰 버킷 내에서 특정 파라미터 크기로 표준화하는 것처럼 보이는지에 대한 질문이 있습니다.
  • 모델의 훈련에 대한 세부 정보, 그것이 기반한 데이터와 어디에서 훈련되었는지에 대한 요청이 있습니다.
  • 훈련 세트에서 벤치마크 오염에 대한 테스트를 요청하는 것이 있습니다.