# Show GN: ko-arena-hard-auto: LLM의 한국어 성능을 측정하기 위한 벤치마크

> Clean Markdown view of GeekNews topic #20178. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=20178](https://news.hada.io/topic?id=20178)
- GeekNews Markdown: [https://news.hada.io/topic/20178.md](https://news.hada.io/topic/20178.md)
- Type: show
- Author: [qwopqwop200](https://news.hada.io/@qwopqwop200)
- Published: 2025-04-06T21:44:37+09:00
- Updated: 2025-04-06T21:44:37+09:00
- Original source: [github.com/qwopqwop200](https://github.com/qwopqwop200/ko-arena-hard-auto)
- Points: 7
- Comments: 0

## Summary

ko-arena-hard-auto는 한국어 LLM 성능 평가를 위해 Arena-Hard-Auto의 500개 질문을 번역하여 사용하며, GPT-4o와 o1을 통해 번역 후 수작업 검수를 거쳤습니다. 이 벤치마크는 코드 믹싱과 코드 스위칭을 고려한 judge 시스템 프롬프트와 다양한 judge 모델의 앙상블을 통해 자기 선호도 편향을 완화하고 비용을 절감합니다. 또한, baseline 모델로 claude-3.7-sonnet을 사용하여 상향평준화된 LLM 성능을 반영합니다.

## Topic Body

[리더보드](https://qwopqwop200.github.io/ko-arena-hard-auto/leaderboard.html) / [코드](https://github.com/qwopqwop200/ko-arena-hard-auto) / [데이터셋](https://huggingface.co/datasets/qwopqwop/ko-arena-hard-auto-v0.1)  
  
인간 선호도는 llm성능을 평가하는 중요한 지표중 하나입니다.   
그러나 인간선호도는 측정하기 매우 까다롭고 비쌉니다.   
LLM-as-a-Judge을 사용하여 이러한 문제를 해결하는 [MT-Bench](https://arxiv.org/abs/2306.05685), [Arena-Hard-Auto](https://arxiv.org/abs/2406.11939), 등이 있습니다.  
그러나 앞선 벤치마크들은 영어를 위한것입니다.  
  
물론 한국어에도 [KoMT-Bench](https://github.com/LG-AI-EXAONE/KoMT-Bench), [LogicKor](https://github.com/instructkr/LogicKor), [Horangi](https://wandb.ai/wandb-korea/korean-llm-leaderboard/reports/Horangi-LLM---Vmlldzo3MzIyNDE2?accessToken=95bffmg3gwblgohulknz7go3h66k11uqn1l3ytjma1uj3w0l0dwh1fywgsgpbdyy)와 같은 좋은 벤치마크가 있습니다.   
  
그러나 기존의 벤치마크들은 [MT-Bench](https://arxiv.org/abs/2306.05685)을 기반으로하며 [MT-Bench](https://arxiv.org/abs/2306.05685)는 [Arena-Hard-Auto](https://arxiv.org/abs/2406.11939)에 비해 낮은 인간 선호도와의 상관관계와 분리성을 가지고 있는것으로 알려져 있습니다.  
  
이러한 문제를 해결하기 위해 ko-arena-hard-auto는 [Arena-Hard-Auto](https://arxiv.org/abs/2406.11939)을 기반으로 하며   
[Arena-Hard-Auto](https://arxiv.org/abs/2406.11939)의 어렵고 까다로운 질문500개를 한국어로 번역하여 사용합니다.   
번역은 GPT-4o와 o1을 사용하고 수작업으로 검수했습니다.  
  
또한 기존의 Arena-Hard-Auto와 크게 3가지가 다릅니다.  
1. 코드 믹싱과 코드 스위칭을 고려한 judge 시스템 프롬프트를 사용합니다.  
2. judge 모델로 gemini-2.0-flash, gpt-4o-mini, deepseek-chat-v3-0324을 사용하고 앙상블 합니다. 이는 자기 선호도 편향을 완화하며 기존의 Arena-Hard-Auto보다 낮은 가격으로 성능을 측정할수 있습니다.  
3. baseline 모델은 claude-3.7-sonnet을 사용합니다. 이는 상향평준화 되는 LLM의 성능을 감안하여 강력한 LLM인 claude-3.7-sonnet을 baseline로 설정하였습니디.  
  
벤치마킹 결과는 다음에서 확인할수 있습니다: https://qwopqwop200.github.io/ko-arena-hard-auto/leaderboard.html  
  
코드: https://github.com/qwopqwop200/ko-arena-hard-auto  
데이터셋: https://huggingface.co/datasets/qwopqwop/ko-arena-hard-auto-v0.1

## Comments


_No public comments on this page._