Hacker News 의견
  • 구두 합의가 모델 훈련에 사용되지 않을 것이라는 약속이 있었음에도 불구하고, 이러한 합의는 종종 위반될 수 있음을 지적함

    • OpenAI가 벤치마크 데이터를 접근할 수 있었지만, 구두로만 훈련에 사용하지 않겠다고 합의한 점에 대해 회의적인 시각을 가짐
  • Epoch 공동 창업자가 OpenAI가 FrontierMath 문제와 솔루션에 접근할 수 있음을 인정했지만, 구두 합의로 훈련에 사용하지 않기로 했음을 언급함

    • 구두 합의의 신뢰성에 의문을 제기하며, OpenAI가 기술적으로 합의를 준수하면서도 벤치마크에서 부당한 이점을 얻을 수 있는 방법이 많음을 지적함
  • OpenAI의 마케팅을 그대로 믿는 사람들에 대한 비판

    • Sora 데모가 수작업 편집을 포함했음에도 불구하고 이를 언급하지 않은 사례를 예로 듦
  • Epoch AI의 Tamay가 OpenAI의 참여에 대해 더 투명하지 못했던 점을 인정함

    • 계약상 정보 공개가 제한되었고, 벤치마크 기여자들에게 더 빨리 투명성을 제공하기 위해 더 강하게 협상했어야 했음을 후회함
  • OpenAI의 벤치마크 결과가 신뢰를 잃었으며, 다른 AI 회사들이 FrontierMath에서 중요한 결과를 얻을 기회를 가졌음을 언급함

  • LLMs나 AI가 실제로 똑똑한지 확인하려면 질문이 훈련 세트에 포함되지 않았음을 증명해야 한다고 주장함

    • 질문이나 답변이 훈련 세트에 포함되지 않았음을 알지 못한다면 AI가 똑똑하다고 주장하지 말아야 함
  • 벤치마크를 고의적으로 속이지 않더라도 반복적으로 같은 테스트를 받으면 과적합이나 p-해킹이 발생할 수 있음을 지적함

    • 작은 변화가 실제 개선인지 노이즈인지 판단하기 어려울 수 있으며, 연구자들이 노이즈에 기반하여 최적화를 발견했다고 믿을 수 있음을 설명함
  • OpenAI가 대중을 오도하는 것에 대한 불쾌감을 표현함

    • CEO의 행동이 FrontierMath와 Epoch AI의 평판을 망칠 것임을 언급함
  • AI 회사들이 자체 평가를 구축할 가능성이 높아지고 있으며, 공공 벤치마크는 소진되었고 더 많은 프론티어 벤치마크에 투자해야 할 필요성을 강조함

  • AI 회사들이 제시하는 평가 결과는 신뢰할 수 없다고 주장함