# Meta, AI 벤치마크 조작 논란

> Clean Markdown view of GeekNews topic #20229. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=20229](https://news.hada.io/topic?id=20229)
- GeekNews Markdown: [https://news.hada.io/topic/20229.md](https://news.hada.io/topic/20229.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-04-09T09:57:08+09:00
- Updated: 2025-04-09T09:57:08+09:00
- Original source: [theverge.com](https://www.theverge.com/meta/645012/meta-llama-4-maverick-benchmarks-gaming)
- Points: 4
- Comments: 2

## Topic Body

- Meta는 새로운 Llama 4 모델 두 가지를 발표함: 작은 모델인 **Scout**과 중간 크기 모델인 **Maverick**  
- Meta는 Maverick이 GPT-4o와 Gemini 2.0 Flash보다 더 나은 성능을 보인다고 주장함  
- Maverick은 AI 모델 비교 플랫폼인 **LMArena**에서 2위를 차지함  
- 공개된 ELO 점수는 1417점으로, GPT-4o보다 높고 Gemini 2.5 Pro보다 약간 낮은 수치임  
- 높은 ELO 점수는 해당 모델이 다른 모델과 비교 평가 시 더 자주 우승함을 의미함  
  
### 벤치마크 조작 의혹 제기  
  
- AI 연구자들이 Meta 문서에서 이상한 점을 발견함  
- Maverick이 LMArena에서 사용된 버전은 일반에 공개된 버전과 다름  
- Meta는 LMArena에 **대화 최적화 실험 버전**을 사용했다고 밝힘  
- 해당 버전은 “대화 성능(conversationality)”에 초점을 맞춘 실험 모델임  
  
### 커뮤니티 및 플랫폼 반응  
  
- LMArena는 Meta의 정책 해석이 기대와 일치하지 않는다고 공식 입장을 밝힘  
- Meta는 실험 버전임을 명확히 표시하지 않았고, 이로 인해 LMArena는 리더보드 정책을 변경한다고 발표함  
- 향후 공정하고 재현 가능한 평가를 보장하기 위한 조치임  
  
### Meta의 해명  
  
- Meta 대변인 Ashley Gabriel은 이메일 성명을 통해 다양한 실험용 버전을 테스트한다고 설명함  
- “‘Llama-4-Maverick-03-26-Experimental’은 대화에 최적화된 실험 모델로, LMArena에서도 우수한 성능을 보였음”이라고 언급함

## Comments



### Comment 36994

- Author: ndrgrd
- Created: 2025-04-10T12:39:24+09:00
- Points: 1

역시 벤치마크에 조작이 빠질 수 없죠.

### Comment 36927

- Author: neo
- Created: 2025-04-09T09:57:08+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43620452) 
- Llama 4의 출시는 Meta에게 큰 실패로 보임. 모델의 성능이 좋지 않음. 모든 보도가 부정적임
  - 예상했던 바와 같지만, Meta가 다음에 무엇을 할지 궁금해짐. 현재 다른 오픈 모델들에 뒤처지는 것 같고, MoEs에 대한 야심 찬 도박이 성공하지 못한 것 같음
  - Zuck이 출시를 강행했는지 궁금함. 준비가 안 된 것을 알고 있었을 것임
- 저작권이 있는 자료를 훔친 회사들이 또다시 비윤리적인 행동을 한다는 것에 충격을 받음
- Meta가 처음으로 잡혔음
- LMArena가 공개한 샘플 배틀(H2H)을 보는 것이 가장 설명적임. Meta의 모델 출력이 너무 장황하고 수다스러움. 판결을 보면 사람들이 LMArena 순위를 무시하는 것이 당연함
- LMArena가 이제 쓸모없어진 것인가?
  - 동일한 사용자 제공 쿼리에 두 모델을 실행하는 측면이 있다고 생각했음. 이것이 조작될 수 없을 것임
  - "대화 최적화"라는 것이 무슨 의미인지 이해하지 못함. 이것이 LMArena에 어떤 이점을 주는지 모르겠음
- Meta는 사람들이 시도할 수 있는 형편없는 공개 AI를 가지고 스스로에게 손해를 끼침 (meta.ai). 나는 정기적으로 GPT 4o, Deepseek, Grok, Google Gemeni 2.5의 웹 버전을 사용함
  - Meta는 항상 최악이라 더 이상 신경 쓰지 않음
- 아무도 놀라지 않을 것임. 또한 Goodhart의 법칙이 다시 작용함
- 리더보드 상위는 폐쇄된 가중치 실험 모델로 가득 차 있음
- 이것은 프롬프터를 더 아첨하거나 더 아부하게 설계된 것이라고 믿음. 만약 사실이라면 비교하는 사람들에 대해 걱정스러움
