리더보드 / 코드 / 데이터셋

인간 선호도는 llm성능을 평가하는 중요한 지표중 하나입니다.
그러나 인간선호도는 측정하기 매우 까다롭고 비쌉니다.
LLM-as-a-Judge을 사용하여 이러한 문제를 해결하는 MT-Bench, Arena-Hard-Auto, 등이 있습니다.
그러나 앞선 벤치마크들은 영어를 위한것입니다.

물론 한국어에도 KoMT-Bench, LogicKor, Horangi와 같은 좋은 벤치마크가 있습니다.

그러나 기존의 벤치마크들은 MT-Bench을 기반으로하며 MT-BenchArena-Hard-Auto에 비해 낮은 인간 선호도와의 상관관계와 분리성을 가지고 있는것으로 알려져 있습니다.

이러한 문제를 해결하기 위해 ko-arena-hard-auto는 Arena-Hard-Auto을 기반으로 하며
Arena-Hard-Auto의 어렵고 까다로운 질문500개를 한국어로 번역하여 사용합니다.
번역은 GPT-4o와 o1을 사용하고 수작업으로 검수했습니다.

또한 기존의 Arena-Hard-Auto와 크게 3가지가 다릅니다.

  1. 코드 믹싱과 코드 스위칭을 고려한 judge 시스템 프롬프트를 사용합니다.
  2. judge 모델로 gemini-2.0-flash, gpt-4o-mini, deepseek-chat-v3-0324을 사용하고 앙상블 합니다. 이는 자기 선호도 편향을 완화하며 기존의 Arena-Hard-Auto보다 낮은 가격으로 성능을 측정할수 있습니다.
  3. baseline 모델은 claude-3.7-sonnet을 사용합니다. 이는 상향평준화 되는 LLM의 성능을 감안하여 강력한 LLM인 claude-3.7-sonnet을 baseline로 설정하였습니디.

벤치마킹 결과는 다음에서 확인할수 있습니다: https://qwopqwop200.github.io/ko-arena-hard-auto/leaderboard.html

코드: https://github.com/qwopqwop200/ko-arena-hard-auto
데이터셋: https://huggingface.co/datasets/qwopqwop/ko-arena-hard-auto-v0.1