8P by neo 2023-09-10 | favorite | 댓글 1개
  • 20개의 질문 세트를 사용하여 60개 이상의 언어 학습 모델(Language Learning Models, LLMs)의 성능을 테스트하고, 각 LLM의 답변들을 정리
  • 이 질문들은 LLM의 기본적인 추론, 지시 사항 따르기, 창의성을 테스트하기 위해 설계됨
  • LLM으로부터의 응답은 SQLite 데이터베이스에 저장
  • 질문은 간단한 산수 문제부터 고등학생에게 양자장 이론을 설명하는 등 더 복잡한 작업에 이르기까지 다양
  • 이 스크립트에는 문장 번역, 코드에서 버그 식별, Python 함수 생성 등 LLMs가 수행해야 하는 작업도 포함
  • 저자는 OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha & AI21의 API를 사용하여 스크립트를 실행
    • 각 모델에 맞게 최적화된 스톱 시퀀스와 프롬프트 포맷을 사용하여 스크립트를 개선할 계획
    • 미래의 아이디어로는 공개 투표를 통한 ELO 등급 계산, 두 모델을 나란히 비교, 커뮤니티에서 제출한 프롬프트 등
Hacker News 의견
  • 다양한 언어 학습 모델(Language Learning Models, LLMs)에 대한 벤치마크를 실행하는 일반적인 하네스를 사용자가 만들어, 다른 사람들이 자신의 데이터로 모델을 테스트하도록 권장. 이 라이브러리는 OpenAI, Anthropic, Google, Llama, Codellama, Replicate, Ollama의 모델을 지원.
  • Vercel의 AI Playground는 여러 LLMs에 동시에 질문을 할 수 있는 유용한 도구로 강조되지만, 현재 24개만 지원하며 60개는 아님.
  • 기사의 LLMs 벤치마킹 방식은 시험 통과와 같은 전통적인 방법보다 현실적이라는 찬사를 받음. 그러나 질문이 훈련 세트의 일부가 되어 결과를 왜곡할 가능성에 대한 우려가 제기됨.
  • 가족 관계에 대한 질문에 대한 LLMs의 응답에서 차이가 발견되었으며, 한 사용자는 기사가 모든 LLMs가 틀렸다고 주장한 질문에 GPT4가 정확하게 답했다고 보고함.
  • Falcon Instruct (40B)는 휴가에 대한 농담으로 "가장 웃긴 모델"로 재미있게 강조됨.
  • "TheoremQA: 정리 기반 [STEM] 질문 응답 데이터셋" 및 "Awesome-legal-nlp"을 포함한 LLMs에 대한 추가 벤치마크가 제안됨.
  • ChatGPT 3.5는 장황한 응답에 대해 비판을 받으며, 한 사용자는 종종 불필요하게 긴 설명을 제공한다고 지적함.
  • AI의 진보에 대해 감탄하며, 한 사용자는 LLMs가 "Kubernetes에 찬성하고 반대하는 윤리적이고 비성적인 하이쿠"를 생성할 수 있는 능력을 언급함.
  • CodeLlama 모델의 성능에 대한 의문이 제기되었으며, 한 사용자는 기사에 나열된 것보다 훨씬 더 좋은 결과를 보고함.
  • LLMs에 대한 흥미에도 불구하고, 일부 사용자들은 모델의 응답 품질에 대해 실망을 표현하며, 특히 음악 이론 질문에 대한 것과 이러한 모델이 시간이 지남에 따라 크게 개선될지 의문을 제기함.