25P by ironman0722 1달전 | favorite | 댓글 10개
  • 24 수능 국어 o1-preview 1등급 달성 (88점 1등급, 상위 4%)
  • gpt-4o가 현재 1위를 달리고 있으며 llama-3.1-405B-instruct가 2위, Qwen-2.5-72B가 3위
    • 아직 gpt o1-preview외에는 3~4등급을 겉돌고 있음
    • 많은 모델이 한국어 언어영역에서의 Human performance를 따라잡는데에는 어려움이 있다는것을 알 수 있음.
  • 매년 새로운 수능 국어라는 고품질 데이터셋을 통해 LLM의 성능을 평가
    • 다양한 분야의 지문 (인문, 사회, 과학, 기술, 예술), 문학, 화법과 작문
  • 실제 수능과 동일하게 표준점수와 등급 체계를 사용하여, Human performance와 LLM의 performance를 비교
  • 본인의 huggingFace finetuning모델 혹은 궁금한 모델 벤치마킹 신청 가능

수능 국어 lllm 벤치마크 리더보드를 오픈했습니다!

이 리더보드는 고품질의 수능 국어 문제를 기반으로 LLM의 한국어 언어 능력을 측정합니다. 수능의 표준점수와 등급 산출 방식을 적용하여 모델의 성능을 Human performance와 비교할 수 있는 리더보드를 제공하며, 이를 통해 사람들과 정보를 공유하기 위해 개설되었습니다.

피드백 언제든지 환영합니다!

i.e)

  • 모델 평가를 위한 gpu 소스가 현재 부족한 상황입니다! 혹시 GPU Donation이 가능하신분이 계시다면 정말 감사하겠습니다!

  • Api 비용 문제로 o1-preview와 테스트하지 못한 상황이며 o1 정식버전이 나오는대로 테스트할 예정입니다.

수능을 CSAT 라고 부르는군요

국어 지문에 그림도 있는데, multimodal 로 하지 않은 이유가 궁금하네요?

리더보드에 관심을 가져주셔서 감사합니다!

첫 번째 이유는 비용 문제였습니다. 수능 데이터를 제작할 당시, 작년에 GPT-4 Turbo가 출시된 시점이라 10개년 수능 데이터를 만들 때 발생하는 비용이 컸습니다.

두 번째 이유는 수능 문제를 풀기 위해 그림 정보를 포함한 모든 단서를 설명에 담아야 했습니다. 하지만 멀티모달을 사용할 때는 한계가 있어, 저희가 그림에 대한 설명을 직접 작성하게 되었습니다.

흥미롭네요! 리더보드를 보면서 몇 가지 궁금한 점이 생겼는데 답변해 주시면 감사드리겠습니다.

  1. LLM을 사용할 때 전체 문제를 풀기 위해 걸리는 시간은 어떻게 되나요? 수능 국어의 경우 80분의 제한 시간이 있는데 (OMR 마킹 시간 포함) LLM이 전체 문제를 푸는데 걸리는 시간은 어느 정도일지 궁금하네요.
  2. 쉬운 시험을 보더라도 동일한 등급대가 나올까요? 극단적으로, 이번 9월 모의고사에서는 1등급컷이 100점일 정도로 쉬웠는데, 해당 모의고사를 응시하더라도 다른 모의고사를 풀 때와 비슷한 등급을 받아낼 수 있을지 궁금하네요.

제 예상으로는 시간은 80분보다 훨씬 적게 사용할 것 같고, 쉬운 시험에서도 절대 점수는 비슷하게 받을 것이라고 예상되는데, 실제로는 어떨지 궁금합니다.

수능 국어 LLM 벤치마크 리더보드에 큰 관심가져주셔서 감사드립니다! 질문에 대한 답변을 드리자면

  1. 짧게는 10분, 길게는 25분정도 걸렸습니다.
  2. 결과로만 봤을때 시험 난이도가 어느정도 LLM의 문제를 푸는데에 영향이 있는 모델도 있고, 그렇지 않은 모델도 있어서 일반화 시키기는 어려운것 같습니다.

예를들어 gpt-4o같은 경우에는 표준점수의 최고점이 130대였던 2018 ~2015사이의 쉬운 수능에서는 더 좋은 점수를 받고, 등급도 다른 년도의 어려운 시험에 비해서는 더 잘 나오는걸 확인할 수 있었습니다.
하지만 meta llama 3.1 70B 모델에 같은경우에서는 2018 ~2015사이의 수능에서 낮은 등급대와 표준점수를 받은것에 비해 표준점수 최고점이 149점대를 기록했던 2022 수능에서는 3등급을 받는 경우도 있었습니다.

혹시라도 더 궁금하신사항이 있거나 보충해야할 설명이 있다면 언제든 말씀해주세요!

오... 모델마다 조금씩 경향에 차이가 있군요? 진짜 사람같네요. 상세한 설명 감사합니다!

1 번에 대해서,
결국 보기 5개 객관식 45 문제 이니, 45 샘플(입력)에 대해 1개 토큰(1,2,3,4,5) 수백초 이내로 풀 것 같습니다.

AI에 수능 등급이 매겨지니 기분이 이상하기도 하고 재밌네요

수능 국어 벤치마크인데 README가 영어인게 아이러니네요

한국어 기준 이만한 고품질 오픈소스 벤치마크 데이터는 없겠네요 ㅋㅋ