Killed by LLM

xguru · 2025-01-08T09:33:01+09:00

AI의 발전으로 인해 쓸모없어진 벤치마크들을 정리 (최신 모델을 측정 불가능) 벤치마크로서 아직 유용은 하지만 "AI가 X를 할수 있는가?"라는 질문에는 의미있는 기여를 못함 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande 2022: BIG-Bench 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD 2018: SWAG

(r0bk.github.io)

7P by xguru 2025-01-08 | ★ favorite | 댓글 3개

AI의 발전으로 인해 쓸모없어진 벤치마크들을 정리 (최신 모델을 측정 불가능)
- 벤치마크로서 아직 유용은 하지만 "AI가 X를 할수 있는가?"라는 질문에는 의미있는 기여를 못함
2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
2022: BIG-Bench
2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
2018: SWAG