6P by xguru 5일전 | ★ favorite | 댓글 3개
  • AI의 발전으로 인해 쓸모없어진 벤치마크들을 정리 (최신 모델을 측정 불가능)
    • 벤치마크로서 아직 유용은 하지만 "AI가 X를 할수 있는가?"라는 질문에는 의미있는 기여를 못함
  • 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
  • 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
  • 2022: BIG-Bench
  • 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
  • 2018: SWAG

SQuAD 도 사라지네요?

killed by google이 생각나네요

아직 특정 벤치마크에 대해서는 찬반이 있기는 한데 흥미롭네요
https://news.ycombinator.com/item?id=42606231