OpenAI의 지원을 받은 FrontierMath 프로

▲

GN⁺ 2025-01-20 | parent | ★ favorite | on: OpenAI의 지원을 받은 FrontierMath 프로젝트(lesswrong.com)

Hacker News 의견

구두 합의가 모델 훈련에 사용되지 않을 것이라는 약속이 있었음에도 불구하고, 이러한 합의는 종종 위반될 수 있음을 지적함
- OpenAI가 벤치마크 데이터를 접근할 수 있었지만, 구두로만 훈련에 사용하지 않겠다고 합의한 점에 대해 회의적인 시각을 가짐
Epoch 공동 창업자가 OpenAI가 FrontierMath 문제와 솔루션에 접근할 수 있음을 인정했지만, 구두 합의로 훈련에 사용하지 않기로 했음을 언급함
- 구두 합의의 신뢰성에 의문을 제기하며, OpenAI가 기술적으로 합의를 준수하면서도 벤치마크에서 부당한 이점을 얻을 수 있는 방법이 많음을 지적함
OpenAI의 마케팅을 그대로 믿는 사람들에 대한 비판
- Sora 데모가 수작업 편집을 포함했음에도 불구하고 이를 언급하지 않은 사례를 예로 듦
Epoch AI의 Tamay가 OpenAI의 참여에 대해 더 투명하지 못했던 점을 인정함
- 계약상 정보 공개가 제한되었고, 벤치마크 기여자들에게 더 빨리 투명성을 제공하기 위해 더 강하게 협상했어야 했음을 후회함
OpenAI의 벤치마크 결과가 신뢰를 잃었으며, 다른 AI 회사들이 FrontierMath에서 중요한 결과를 얻을 기회를 가졌음을 언급함
LLMs나 AI가 실제로 똑똑한지 확인하려면 질문이 훈련 세트에 포함되지 않았음을 증명해야 한다고 주장함
- 질문이나 답변이 훈련 세트에 포함되지 않았음을 알지 못한다면 AI가 똑똑하다고 주장하지 말아야 함
벤치마크를 고의적으로 속이지 않더라도 반복적으로 같은 테스트를 받으면 과적합이나 p-해킹이 발생할 수 있음을 지적함
- 작은 변화가 실제 개선인지 노이즈인지 판단하기 어려울 수 있으며, 연구자들이 노이즈에 기반하여 최적화를 발견했다고 믿을 수 있음을 설명함
OpenAI가 대중을 오도하는 것에 대한 불쾌감을 표현함
- CEO의 행동이 FrontierMath와 Epoch AI의 평판을 망칠 것임을 언급함
AI 회사들이 자체 평가를 구축할 가능성이 높아지고 있으며, 공공 벤치마크는 소진되었고 더 많은 프론티어 벤치마크에 투자해야 할 필요성을 강조함
AI 회사들이 제시하는 평가 결과는 신뢰할 수 없다고 주장함