Killed by LLM
(r0bk.github.io)- AI의 발전으로 인해 쓸모없어진 벤치마크들을 정리 (최신 모델을 측정 불가능)
- 벤치마크로서 아직 유용은 하지만 "AI가 X를 할수 있는가?"라는 질문에는 의미있는 기여를 못함
- 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
- 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
- 2022: BIG-Bench
- 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
- 2018: SWAG