# Killed by LLM

> Clean Markdown view of GeekNews topic #18618. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18618](https://news.hada.io/topic?id=18618)
- GeekNews Markdown: [https://news.hada.io/topic/18618.md](https://news.hada.io/topic/18618.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-01-08T09:33:01+09:00
- Updated: 2025-01-08T09:33:01+09:00
- Original source: [r0bk.github.io](https://r0bk.github.io/killedbyllm/)
- Points: 7
- Comments: 3

## Summary

AI의 발전으로 인해 기존의 벤치마크들이 더 이상 최신 모델을 측정하는 데 유용하지 않게 되었습니다. 이러한 벤치마크들은 여전히 유용할 수 있지만, "AI가 특정 작업을 수행할 수 있는가?"라는 질문에는 의미 있는 기여를 하지 못합니다. 2024년에는 ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval 등이 있으며, 2023년에는 GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande 등이 있습니다.

## Topic Body

- AI의 발전으로 인해 쓸모없어진 벤치마크들을 정리 (최신 모델을 측정 불가능)  
  - 벤치마크로서 아직 유용은 하지만 "AI가 X를 할수 있는가?"라는 질문에는 의미있는 기여를 못함   
- 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval   
- 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande  
- 2022: BIG-Bench   
- 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD  
- 2018: SWAG

## Comments



### Comment 33138

- Author: kandk
- Created: 2025-01-08T13:21:04+09:00
- Points: 1

SQuAD 도 사라지네요?

### Comment 33130

- Author: nutella
- Created: 2025-01-08T10:55:46+09:00
- Points: 1

killed by google이 생각나네요

### Comment 33113

- Author: xguru
- Created: 2025-01-08T09:34:02+09:00
- Points: 1

아직 특정 벤치마크에 대해서는 찬반이 있기는 한데 흥미롭네요  
https://news.ycombinator.com/item?id=42606231
