4P by GN⁺ 11일전 | ★ favorite | 댓글 2개
  • Meta는 새로운 Llama 4 모델 두 가지를 발표함: 작은 모델인 Scout과 중간 크기 모델인 Maverick
  • Meta는 Maverick이 GPT-4o와 Gemini 2.0 Flash보다 더 나은 성능을 보인다고 주장함
  • Maverick은 AI 모델 비교 플랫폼인 LMArena에서 2위를 차지함
  • 공개된 ELO 점수는 1417점으로, GPT-4o보다 높고 Gemini 2.5 Pro보다 약간 낮은 수치임
  • 높은 ELO 점수는 해당 모델이 다른 모델과 비교 평가 시 더 자주 우승함을 의미함

벤치마크 조작 의혹 제기

  • AI 연구자들이 Meta 문서에서 이상한 점을 발견함
  • Maverick이 LMArena에서 사용된 버전은 일반에 공개된 버전과 다름
  • Meta는 LMArena에 대화 최적화 실험 버전을 사용했다고 밝힘
  • 해당 버전은 “대화 성능(conversationality)”에 초점을 맞춘 실험 모델임

커뮤니티 및 플랫폼 반응

  • LMArena는 Meta의 정책 해석이 기대와 일치하지 않는다고 공식 입장을 밝힘
  • Meta는 실험 버전임을 명확히 표시하지 않았고, 이로 인해 LMArena는 리더보드 정책을 변경한다고 발표함
  • 향후 공정하고 재현 가능한 평가를 보장하기 위한 조치임

Meta의 해명

  • Meta 대변인 Ashley Gabriel은 이메일 성명을 통해 다양한 실험용 버전을 테스트한다고 설명함
  • “‘Llama-4-Maverick-03-26-Experimental’은 대화에 최적화된 실험 모델로, LMArena에서도 우수한 성능을 보였음”이라고 언급함

역시 벤치마크에 조작이 빠질 수 없죠.

Hacker News 의견
  • Llama 4의 출시는 Meta에게 큰 실패로 보임. 모델의 성능이 좋지 않음. 모든 보도가 부정적임
    • 예상했던 바와 같지만, Meta가 다음에 무엇을 할지 궁금해짐. 현재 다른 오픈 모델들에 뒤처지는 것 같고, MoEs에 대한 야심 찬 도박이 성공하지 못한 것 같음
    • Zuck이 출시를 강행했는지 궁금함. 준비가 안 된 것을 알고 있었을 것임
  • 저작권이 있는 자료를 훔친 회사들이 또다시 비윤리적인 행동을 한다는 것에 충격을 받음
  • Meta가 처음으로 잡혔음
  • LMArena가 공개한 샘플 배틀(H2H)을 보는 것이 가장 설명적임. Meta의 모델 출력이 너무 장황하고 수다스러움. 판결을 보면 사람들이 LMArena 순위를 무시하는 것이 당연함
  • LMArena가 이제 쓸모없어진 것인가?
    • 동일한 사용자 제공 쿼리에 두 모델을 실행하는 측면이 있다고 생각했음. 이것이 조작될 수 없을 것임
    • "대화 최적화"라는 것이 무슨 의미인지 이해하지 못함. 이것이 LMArena에 어떤 이점을 주는지 모르겠음
  • Meta는 사람들이 시도할 수 있는 형편없는 공개 AI를 가지고 스스로에게 손해를 끼침 (meta.ai). 나는 정기적으로 GPT 4o, Deepseek, Grok, Google Gemeni 2.5의 웹 버전을 사용함
    • Meta는 항상 최악이라 더 이상 신경 쓰지 않음
  • 아무도 놀라지 않을 것임. 또한 Goodhart의 법칙이 다시 작용함
  • 리더보드 상위는 폐쇄된 가중치 실험 모델로 가득 차 있음
  • 이것은 프롬프터를 더 아첨하거나 더 아부하게 설계된 것이라고 믿음. 만약 사실이라면 비교하는 사람들에 대해 걱정스러움