Meta, AI 벤치마크 조작 논란

▲

GN⁺ 2025-04-09 | parent | ★ favorite | on: Meta, AI 벤치마크 조작 논란(theverge.com)

Hacker News 의견

Llama 4의 출시는 Meta에게 큰 실패로 보임. 모델의 성능이 좋지 않음. 모든 보도가 부정적임
- 예상했던 바와 같지만, Meta가 다음에 무엇을 할지 궁금해짐. 현재 다른 오픈 모델들에 뒤처지는 것 같고, MoEs에 대한 야심 찬 도박이 성공하지 못한 것 같음
- Zuck이 출시를 강행했는지 궁금함. 준비가 안 된 것을 알고 있었을 것임
Meta가 처음으로 잡혔음
LMArena가 공개한 샘플 배틀(H2H)을 보는 것이 가장 설명적임. Meta의 모델 출력이 너무 장황하고 수다스러움. 판결을 보면 사람들이 LMArena 순위를 무시하는 것이 당연함
LMArena가 이제 쓸모없어진 것인가?
- 동일한 사용자 제공 쿼리에 두 모델을 실행하는 측면이 있다고 생각했음. 이것이 조작될 수 없을 것임
- "대화 최적화"라는 것이 무슨 의미인지 이해하지 못함. 이것이 LMArena에 어떤 이점을 주는지 모르겠음
Meta는 사람들이 시도할 수 있는 형편없는 공개 AI를 가지고 스스로에게 손해를 끼침 (meta.ai). 나는 정기적으로 GPT 4o, Deepseek, Grok, Google Gemeni 2.5의 웹 버전을 사용함
- Meta는 항상 최악이라 더 이상 신경 쓰지 않음
아무도 놀라지 않을 것임. 또한 Goodhart의 법칙이 다시 작용함
리더보드 상위는 폐쇄된 가중치 실험 모델로 가득 차 있음
이것은 프롬프터를 더 아첨하거나 더 아부하게 설계된 것이라고 믿음. 만약 사실이라면 비교하는 사람들에 대해 걱정스러움