Meta, AI 벤치마크 조작 논란
(theverge.com)- Meta는 새로운 Llama 4 모델 두 가지를 발표함: 작은 모델인 Scout과 중간 크기 모델인 Maverick
- Meta는 Maverick이 GPT-4o와 Gemini 2.0 Flash보다 더 나은 성능을 보인다고 주장함
- Maverick은 AI 모델 비교 플랫폼인 LMArena에서 2위를 차지함
- 공개된 ELO 점수는 1417점으로, GPT-4o보다 높고 Gemini 2.5 Pro보다 약간 낮은 수치임
- 높은 ELO 점수는 해당 모델이 다른 모델과 비교 평가 시 더 자주 우승함을 의미함
벤치마크 조작 의혹 제기
- AI 연구자들이 Meta 문서에서 이상한 점을 발견함
- Maverick이 LMArena에서 사용된 버전은 일반에 공개된 버전과 다름
- Meta는 LMArena에 대화 최적화 실험 버전을 사용했다고 밝힘
- 해당 버전은 “대화 성능(conversationality)”에 초점을 맞춘 실험 모델임
커뮤니티 및 플랫폼 반응
- LMArena는 Meta의 정책 해석이 기대와 일치하지 않는다고 공식 입장을 밝힘
- Meta는 실험 버전임을 명확히 표시하지 않았고, 이로 인해 LMArena는 리더보드 정책을 변경한다고 발표함
- 향후 공정하고 재현 가능한 평가를 보장하기 위한 조치임
Meta의 해명
- Meta 대변인 Ashley Gabriel은 이메일 성명을 통해 다양한 실험용 버전을 테스트한다고 설명함
- “‘Llama-4-Maverick-03-26-Experimental’은 대화에 최적화된 실험 모델로, LMArena에서도 우수한 성능을 보였음”이라고 언급함
Hacker News 의견
- Llama 4의 출시는 Meta에게 큰 실패로 보임. 모델의 성능이 좋지 않음. 모든 보도가 부정적임
- 예상했던 바와 같지만, Meta가 다음에 무엇을 할지 궁금해짐. 현재 다른 오픈 모델들에 뒤처지는 것 같고, MoEs에 대한 야심 찬 도박이 성공하지 못한 것 같음
- Zuck이 출시를 강행했는지 궁금함. 준비가 안 된 것을 알고 있었을 것임
- 저작권이 있는 자료를 훔친 회사들이 또다시 비윤리적인 행동을 한다는 것에 충격을 받음
- Meta가 처음으로 잡혔음
- LMArena가 공개한 샘플 배틀(H2H)을 보는 것이 가장 설명적임. Meta의 모델 출력이 너무 장황하고 수다스러움. 판결을 보면 사람들이 LMArena 순위를 무시하는 것이 당연함
- LMArena가 이제 쓸모없어진 것인가?
- 동일한 사용자 제공 쿼리에 두 모델을 실행하는 측면이 있다고 생각했음. 이것이 조작될 수 없을 것임
- "대화 최적화"라는 것이 무슨 의미인지 이해하지 못함. 이것이 LMArena에 어떤 이점을 주는지 모르겠음
- Meta는 사람들이 시도할 수 있는 형편없는 공개 AI를 가지고 스스로에게 손해를 끼침 (meta.ai). 나는 정기적으로 GPT 4o, Deepseek, Grok, Google Gemeni 2.5의 웹 버전을 사용함
- Meta는 항상 최악이라 더 이상 신경 쓰지 않음
- 아무도 놀라지 않을 것임. 또한 Goodhart의 법칙이 다시 작용함
- 리더보드 상위는 폐쇄된 가중치 실험 모델로 가득 차 있음
- 이것은 프롬프터를 더 아첨하거나 더 아부하게 설계된 것이라고 믿음. 만약 사실이라면 비교하는 사람들에 대해 걱정스러움