- 2025학년도 수능 국어에서 O1-Preview가 97점이라는 놀라운 성적을 기록
- 벤치마크 과정에 대해서 더 궁금하신 분은 실험과정과 추가적인 내용들을 정리해본 블로그도 적어보았으니 참고해주세요!
- 2025 수능국어 llm 벤치마크에서 gpt 모델들의 결과
🥇 1st. o1-Preview: 97점 (1등급)
🥈 2nd. o1-mini: 78점 (4등급)
🥉 3rd. gpt-4o: 75점 (4등급): gpt-4o
4th. gpt-4o-mini: 59점 (5등급)
5th. gpt-3.5-turbo: 16점 (8등급)
- 수능 LLM 벤치마크 리더보드 프로젝트의 목적
- Human performance와 LLM performance를 비교할수 있는 벤치마크 정보공유
- 한국어 언어능력을 평가하는 한국의 가장 공신력 있는 KICE 평가원의 엄선된 벤치마크 데이터셋
- 해마다 업데이트 되는 새로운 수능국어 벤치마크 데이터셋으로 데이터 리키지 방지
- 특정 국가나 기업에 종속되지 않은 오픈소스 LLM이 한국 수능 1등급에 도달시키는것
- 본 프로젝트는 Markr.AI에서 진행한 프로젝트입니다.
- 본 벤치마크는 AutoRAG 오픈소스를 활용하여 진행했습니다!
- 리더보드에 2023 수능국어를 벤치마크 할 수 있는 튜토리얼을 업데이트했습니다!
- 궁금하신부분이 있다면 언제든 연락주세요!