Killed by LLM
(r0bk.github.io)- AI의 발전으로 인해 쓸모없어진 벤치마크들을 정리 (최신 모델을 측정 불가능)
- 벤치마크로서 아직 유용은 하지만 "AI가 X를 할수 있는가?"라는 질문에는 의미있는 기여를 못함
 
 - 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
 - 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
 - 2022: BIG-Bench
 - 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
 - 2018: SWAG