Show GN: 수능 국어 LLM 벤치마크 리더보드 오픈
(github.com/minsing-jin)- 24 수능 국어 o1-preview 1등급 달성 (88점 1등급, 상위 4%)
- gpt-4o가 현재 1위를 달리고 있으며 llama-3.1-405B-instruct가 2위, Qwen-2.5-72B가 3위
- 아직 gpt o1-preview외에는 3~4등급을 겉돌고 있음
- 많은 모델이 한국어 언어영역에서의 Human performance를 따라잡는데에는 어려움이 있다는것을 알 수 있음.
- 매년 새로운 수능 국어라는 고품질 데이터셋을 통해 LLM의 성능을 평가
- 다양한 분야의 지문 (인문, 사회, 과학, 기술, 예술), 문학, 화법과 작문
- 실제 수능과 동일하게 표준점수와 등급 체계를 사용하여, Human performance와 LLM의 performance를 비교
- 본인의 huggingFace finetuning모델 혹은 궁금한 모델 벤치마킹 신청 가능
수능 국어 lllm 벤치마크 리더보드를 오픈했습니다!
이 리더보드는 고품질의 수능 국어 문제를 기반으로 LLM의 한국어 언어 능력을 측정합니다. 수능의 표준점수와 등급 산출 방식을 적용하여 모델의 성능을 Human performance와 비교할 수 있는 리더보드를 제공하며, 이를 통해 사람들과 정보를 공유하기 위해 개설되었습니다.
피드백 언제든지 환영합니다!
i.e)
-
모델 평가를 위한 gpu 소스가 현재 부족한 상황입니다! 혹시 GPU Donation이 가능하신분이 계시다면 정말 감사하겠습니다!
-
Api 비용 문제로 o1-preview와 테스트하지 못한 상황이며 o1 정식버전이 나오는대로 테스트할 예정입니다.
리더보드에 관심을 가져주셔서 감사합니다!
첫 번째 이유는 비용 문제였습니다. 수능 데이터를 제작할 당시, 작년에 GPT-4 Turbo가 출시된 시점이라 10개년 수능 데이터를 만들 때 발생하는 비용이 컸습니다.
두 번째 이유는 수능 문제를 풀기 위해 그림 정보를 포함한 모든 단서를 설명에 담아야 했습니다. 하지만 멀티모달을 사용할 때는 한계가 있어, 저희가 그림에 대한 설명을 직접 작성하게 되었습니다.
흥미롭네요! 리더보드를 보면서 몇 가지 궁금한 점이 생겼는데 답변해 주시면 감사드리겠습니다.
- LLM을 사용할 때 전체 문제를 풀기 위해 걸리는 시간은 어떻게 되나요? 수능 국어의 경우 80분의 제한 시간이 있는데 (OMR 마킹 시간 포함) LLM이 전체 문제를 푸는데 걸리는 시간은 어느 정도일지 궁금하네요.
- 쉬운 시험을 보더라도 동일한 등급대가 나올까요? 극단적으로, 이번 9월 모의고사에서는 1등급컷이 100점일 정도로 쉬웠는데, 해당 모의고사를 응시하더라도 다른 모의고사를 풀 때와 비슷한 등급을 받아낼 수 있을지 궁금하네요.
제 예상으로는 시간은 80분보다 훨씬 적게 사용할 것 같고, 쉬운 시험에서도 절대 점수는 비슷하게 받을 것이라고 예상되는데, 실제로는 어떨지 궁금합니다.
수능 국어 LLM 벤치마크 리더보드에 큰 관심가져주셔서 감사드립니다! 질문에 대한 답변을 드리자면
- 짧게는 10분, 길게는 25분정도 걸렸습니다.
- 결과로만 봤을때 시험 난이도가 어느정도 LLM의 문제를 푸는데에 영향이 있는 모델도 있고, 그렇지 않은 모델도 있어서 일반화 시키기는 어려운것 같습니다.
예를들어 gpt-4o같은 경우에는 표준점수의 최고점이 130대였던 2018 ~2015사이의 쉬운 수능에서는 더 좋은 점수를 받고, 등급도 다른 년도의 어려운 시험에 비해서는 더 잘 나오는걸 확인할 수 있었습니다.
하지만 meta llama 3.1 70B 모델에 같은경우에서는 2018 ~2015사이의 수능에서 낮은 등급대와 표준점수를 받은것에 비해 표준점수 최고점이 149점대를 기록했던 2022 수능에서는 3등급을 받는 경우도 있었습니다.
혹시라도 더 궁금하신사항이 있거나 보충해야할 설명이 있다면 언제든 말씀해주세요!
1 번에 대해서,
결국 보기 5개 객관식 45 문제 이니, 45 샘플(입력)에 대해 1개 토큰(1,2,3,4,5) 수백초 이내로 풀 것 같습니다.