수능 국어 LLM 벤치마크 리더보드에 큰 관심가져주셔서 감사드립니다! 질문에 대한 답변을 드리자면

  1. 짧게는 10분, 길게는 25분정도 걸렸습니다.
  2. 결과로만 봤을때 시험 난이도가 어느정도 LLM의 문제를 푸는데에 영향이 있는 모델도 있고, 그렇지 않은 모델도 있어서 일반화 시키기는 어려운것 같습니다.

예를들어 gpt-4o같은 경우에는 표준점수의 최고점이 130대였던 2018 ~2015사이의 쉬운 수능에서는 더 좋은 점수를 받고, 등급도 다른 년도의 어려운 시험에 비해서는 더 잘 나오는걸 확인할 수 있었습니다.
하지만 meta llama 3.1 70B 모델에 같은경우에서는 2018 ~2015사이의 수능에서 낮은 등급대와 표준점수를 받은것에 비해 표준점수 최고점이 149점대를 기록했던 2022 수능에서는 3등급을 받는 경우도 있었습니다.

혹시라도 더 궁금하신사항이 있거나 보충해야할 설명이 있다면 언제든 말씀해주세요!

오... 모델마다 조금씩 경향에 차이가 있군요? 진짜 사람같네요. 상세한 설명 감사합니다!