LogicKor: 한국어 언어모델 다분야 사고력 벤치마크

(github.com/StableFluffy)

14P by libner 2024-03-29 | ★ favorite | 댓글 3개

영어권 벤치마크 중 8개 카테고리에 대해 10개씩의 질문으로 구성된 벤치마크 MT-Bench에서 영감을 받아 작성된 한국어 언어모델 벤치마크라고 합니다.
제작자 분은 현재 쓰이는 한국어 언어모델의 벤치마크에서 한계점을 보아 제작하셨다고 하네요.

아래는 LogicKor 벤치마크에 대해 제작자 분의 글에서 인용한 부분입니다.

한국어 모델의 사고력을 판단 할 수 있는 6가지의 주제를 아래와 같이 나누어보았습니다.  
추론 (Reasoning) - 논리적 사고, 문제 해결  
수학 (Math) - 수학적 개념, 계산  
글쓰기 (Writing) - 문장간의 호응, 창의력  
코딩 (Coding) - 코딩 지식, 기능 구현  
이해 (Understanding) - 지문 이해, 정보 추출, 지시 이행  
문법 (Grammar) - 한글 맞춤법, 표준 발음법  
  
그리고, 각 주제에 7가지의 멀티턴 질문을 제작하였구요.

skymer 2024-03-29 [-]

레포에는 별다른 설명이 없는데 인용하신 글도 링크를 첨부해주실 수 있을까요?

답변달기

libner 2024-03-29 [-]

커뮤니티 사이트에 올라온 글이다보니 단어 선택이 좀 강할 수 있고... 그래서 자칫 댓글란이 큰일이 날까봐 우려하여 글 링크를 달지 않았었습니다.
해당 글의 주소입니다: https://arca.live/b/alpaca/102052014

답변달기

skymer 2024-03-29 [-]

감사합니다! 업스테이지에서 의심이 많이가는 벤치마크 결과를 뿌린다는 생각이 들었는데 저만 한 생각은 아니었네요.. 클로바X 체감성능이 그렇게 좋진 않았는데 한국 모델중에서는 1등이네요.

답변달기

LogicKor: 한국어 언어모델 다분야 사고력 벤치마크

함께 보면 좋은 글 β

댓글과 토론