Meta, AI 벤치마크 조작 논란

(theverge.com)

4P by GN⁺ 5달전 | ★ favorite | 댓글 2개

Meta는 새로운 Llama 4 모델 두 가지를 발표함: 작은 모델인 Scout과 중간 크기 모델인 Maverick
Meta는 Maverick이 GPT-4o와 Gemini 2.0 Flash보다 더 나은 성능을 보인다고 주장함
Maverick은 AI 모델 비교 플랫폼인 LMArena에서 2위를 차지함
공개된 ELO 점수는 1417점으로, GPT-4o보다 높고 Gemini 2.5 Pro보다 약간 낮은 수치임
높은 ELO 점수는 해당 모델이 다른 모델과 비교 평가 시 더 자주 우승함을 의미함

벤치마크 조작 의혹 제기

AI 연구자들이 Meta 문서에서 이상한 점을 발견함
Maverick이 LMArena에서 사용된 버전은 일반에 공개된 버전과 다름
Meta는 LMArena에 대화 최적화 실험 버전을 사용했다고 밝힘
해당 버전은 “대화 성능(conversationality)”에 초점을 맞춘 실험 모델임

커뮤니티 및 플랫폼 반응

LMArena는 Meta의 정책 해석이 기대와 일치하지 않는다고 공식 입장을 밝힘
Meta는 실험 버전임을 명확히 표시하지 않았고, 이로 인해 LMArena는 리더보드 정책을 변경한다고 발표함
향후 공정하고 재현 가능한 평가를 보장하기 위한 조치임

Meta의 해명

Meta 대변인 Ashley Gabriel은 이메일 성명을 통해 다양한 실험용 버전을 테스트한다고 설명함
“‘Llama-4-Maverick-03-26-Experimental’은 대화에 최적화된 실험 모델로, LMArena에서도 우수한 성능을 보였음”이라고 언급함

▲

ndrgrd 5달전 [-]

역시 벤치마크에 조작이 빠질 수 없죠.

답변달기

▲

GN⁺ 5달전 [-]

Hacker News 의견

Llama 4의 출시는 Meta에게 큰 실패로 보임. 모델의 성능이 좋지 않음. 모든 보도가 부정적임
- 예상했던 바와 같지만, Meta가 다음에 무엇을 할지 궁금해짐. 현재 다른 오픈 모델들에 뒤처지는 것 같고, MoEs에 대한 야심 찬 도박이 성공하지 못한 것 같음
- Zuck이 출시를 강행했는지 궁금함. 준비가 안 된 것을 알고 있었을 것임
Meta가 처음으로 잡혔음
LMArena가 공개한 샘플 배틀(H2H)을 보는 것이 가장 설명적임. Meta의 모델 출력이 너무 장황하고 수다스러움. 판결을 보면 사람들이 LMArena 순위를 무시하는 것이 당연함
LMArena가 이제 쓸모없어진 것인가?
- 동일한 사용자 제공 쿼리에 두 모델을 실행하는 측면이 있다고 생각했음. 이것이 조작될 수 없을 것임
- "대화 최적화"라는 것이 무슨 의미인지 이해하지 못함. 이것이 LMArena에 어떤 이점을 주는지 모르겠음
Meta는 사람들이 시도할 수 있는 형편없는 공개 AI를 가지고 스스로에게 손해를 끼침 (meta.ai). 나는 정기적으로 GPT 4o, Deepseek, Grok, Google Gemeni 2.5의 웹 버전을 사용함
- Meta는 항상 최악이라 더 이상 신경 쓰지 않음
아무도 놀라지 않을 것임. 또한 Goodhart의 법칙이 다시 작용함
리더보드 상위는 폐쇄된 가중치 실험 모델로 가득 차 있음
이것은 프롬프터를 더 아첨하거나 더 아부하게 설계된 것이라고 믿음. 만약 사실이라면 비교하는 사람들에 대해 걱정스러움

답변달기