5P by ironman0722 7일전 | favorite | 댓글 1개
  • 2025학년도 수능 국어에서 O1-Preview가 97점이라는 놀라운 성적을 기록
    • 8번(3점) 비문학지문 오답기록
      • 논리의 오류로 인해 오답인 3번을 선택
  • 벤치마크 과정에 대해서 더 궁금하신 분은 실험과정과 추가적인 내용들을 정리해본 블로그도 적어보았으니 참고해주세요!
  • 2025 수능국어 llm 벤치마크에서 gpt 모델들의 결과
    🥇 1st. o1-Preview: 97점 (1등급)
    🥈 2nd. o1-mini: 78점 (4등급)
    🥉 3rd. gpt-4o: 75점 (4등급): gpt-4o
    4th. gpt-4o-mini: 59점 (5등급)
    5th. gpt-3.5-turbo: 16점 (8등급)
  • 수능 LLM 벤치마크 리더보드 프로젝트의 목적
    1. Human performance와 LLM performance를 비교할수 있는 벤치마크 정보공유
    2. 한국어 언어능력을 평가하는 한국의 가장 공신력 있는 KICE 평가원의 엄선된 벤치마크 데이터셋
    3. 해마다 업데이트 되는 새로운 수능국어 벤치마크 데이터셋으로 데이터 리키지 방지
    4. 특정 국가나 기업에 종속되지 않은 오픈소스 LLM이 한국 수능 1등급에 도달시키는것

  • 본 프로젝트는 Markr.AI에서 진행한 프로젝트입니다.
  • 본 벤치마크는 AutoRAG 오픈소스를 활용하여 진행했습니다!
  • 리더보드에 2023 수능국어를 벤치마크 할 수 있는 튜토리얼을 업데이트했습니다!
  • 궁금하신부분이 있다면 언제든 연락주세요!

블로그 링크가 짤렸네요! 댓글에 다시 올리겠습니다!
https://velog.io/@minsing-jin/…