20개의 질문으로 60개의 LLM에게 묻다

(benchmarks.llmonitor.com)

8P by GN⁺ 2023-09-10 | ★ favorite | 댓글 1개

20개의 질문 세트를 사용하여 60개 이상의 언어 학습 모델(Language Learning Models, LLMs)의 성능을 테스트하고, 각 LLM의 답변들을 정리
이 질문들은 LLM의 기본적인 추론, 지시 사항 따르기, 창의성을 테스트하기 위해 설계됨
LLM으로부터의 응답은 SQLite 데이터베이스에 저장
질문은 간단한 산수 문제부터 고등학생에게 양자장 이론을 설명하는 등 더 복잡한 작업에 이르기까지 다양
이 스크립트에는 문장 번역, 코드에서 버그 식별, Python 함수 생성 등 LLMs가 수행해야 하는 작업도 포함
저자는 OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha & AI21의 API를 사용하여 스크립트를 실행
- 각 모델에 맞게 최적화된 스톱 시퀀스와 프롬프트 포맷을 사용하여 스크립트를 개선할 계획
- 미래의 아이디어로는 공개 투표를 통한 ELO 등급 계산, 두 모델을 나란히 비교, 커뮤니티에서 제출한 프롬프트 등

▲

GN⁺ 2023-09-10 [-]

Hacker News 의견

다양한 언어 학습 모델(Language Learning Models, LLMs)에 대한 벤치마크를 실행하는 일반적인 하네스를 사용자가 만들어, 다른 사람들이 자신의 데이터로 모델을 테스트하도록 권장. 이 라이브러리는 OpenAI, Anthropic, Google, Llama, Codellama, Replicate, Ollama의 모델을 지원.
Vercel의 AI Playground는 여러 LLMs에 동시에 질문을 할 수 있는 유용한 도구로 강조되지만, 현재 24개만 지원하며 60개는 아님.
기사의 LLMs 벤치마킹 방식은 시험 통과와 같은 전통적인 방법보다 현실적이라는 찬사를 받음. 그러나 질문이 훈련 세트의 일부가 되어 결과를 왜곡할 가능성에 대한 우려가 제기됨.
가족 관계에 대한 질문에 대한 LLMs의 응답에서 차이가 발견되었으며, 한 사용자는 기사가 모든 LLMs가 틀렸다고 주장한 질문에 GPT4가 정확하게 답했다고 보고함.
Falcon Instruct (40B)는 휴가에 대한 농담으로 "가장 웃긴 모델"로 재미있게 강조됨.
"TheoremQA: 정리 기반 [STEM] 질문 응답 데이터셋" 및 "Awesome-legal-nlp"을 포함한 LLMs에 대한 추가 벤치마크가 제안됨.
ChatGPT 3.5는 장황한 응답에 대해 비판을 받으며, 한 사용자는 종종 불필요하게 긴 설명을 제공한다고 지적함.
AI의 진보에 대해 감탄하며, 한 사용자는 LLMs가 "Kubernetes에 찬성하고 반대하는 윤리적이고 비성적인 하이쿠"를 생성할 수 있는 능력을 언급함.
CodeLlama 모델의 성능에 대한 의문이 제기되었으며, 한 사용자는 기사에 나열된 것보다 훨씬 더 좋은 결과를 보고함.
LLMs에 대한 흥미에도 불구하고, 일부 사용자들은 모델의 응답 품질에 대해 실망을 표현하며, 특히 음악 이론 질문에 대한 것과 이러한 모델이 시간이 지남에 따라 크게 개선될지 의문을 제기함.

답변달기