2P by neo 9일전 | ★ favorite | 댓글 1개
  • 최근 OpenAI가 새 모델 o3를 공개하며 수학 분야에서 획기적 성능을 달성했다고 발표함
  • 특히 이전 모델이 2% 해내던 FrontierMath 벤치마크에서 25%를 달성해 큰 주목을 받음
  • 발표 이후 이 벤치마크 구성 과정과 관련해 투명성이 부족했다는 지적이 나왔음
  • 이를 통해 미래 AI 벤치마크와 평가, 안전성 논의에 교훈을 얻을 수 있음

사건 개요

  • 2024년 11월 전, Epoch AI에서 수학 평가용 벤치마크 FrontierMath를 구축하기 시작함
  • 외부 수학자들에게 문제를 의뢰하며 약 300~1000달러로 보상함
  • 당시 누가 자금을 대고, 누가 문제와 해답을 볼 수 있는지 명확히 알리지 않았음
  • 2024년 11월 7일, Epoch AI가 arxiv에 첫 번째 논문 버전을 공개했는데, 여기에는 자금 출처가 전혀 언급되지 않음
  • 2024년 12월 20일, OpenAI가 o3 모델을 공개했는데, FrontierMath에서 25%를 달성했다는 발표를 함
  • 같은 날 Epoch AI 논문의 v5가 arxiv에 업데이트되었고, 여기서 OpenAI가 전액 후원했으며 대부분의 어려운 문제와 해답에 접근 가능하다고 공개함

추가 세부 사항

  • 12월 업데이트 직후에도 이 문제에 대한 우려가 있었고, 최근 더욱 관련된 정보가 알려졌음
  • FrontierMath는 (a) 올림피아드 수준(25%), (b) 중간 난이도(50%), (c) 전문가가 여러 주가 필요한 수준(25%)로 난이도를 나눔
  • o3가 25%를 달성했다는 발표에서, 어떤 난이도 문제를 주로 풀었는지가 공개되지 않았다는 점이 오해를 일으킬 수 있음
  • OpenAI가 모든 문제와 해답에 접근했으나, 구두 합의에 따라 이 데이터셋을 직접 학습에 사용하지 않았을 것으로 추정됨
  • 그러나 누구도 내부적으로 어떤 방식으로 모델이 학습되고 있는지 정확히 알기 어렵다는 지적이 있음

다른 문제가 되는 이유

  • FrontierMath 문제들을 소유·접근할 수 있으면, 모델의 성능 향상에 간접적으로 도움될 가능성이 있음
  • 특히 공개되지 않은 고난도 문제를 통해 모델 검증이나 탐색 기법을 정교화할 수 있다는 우려가 제기됨
  • 25% 달성 발표가 실제로 어려운 문제 풀이 능력을 의미하는지, 아니면 쉬운 문제 위주로 푼 것인지는 불분명함

명시적 훈련 없이도 능력을 높일 수 있는 데이터셋

  • o3의 내부 구조는 잘 공개되지 않았으나, 일부 다른 연구들이 “추론 단계에서 규모를 확장하는 방식”을 채택하고 있음
  • MCMC 기반 체인오브소트(Chain-of-thought) 평가를 자동으로 학습하거나, 중간 단계에 보상 모델(PRM)을 붙여 탐색을 강화한다는 연구가 소개됨
  • FrontierMath 같은 어려운 벤치마크는 이러한 보상 모델 검증에 유용할 수 있음
  • 다시 말해 직접 학습에 쓰지 않아도, 모델 탐색 전략이나 검증 기법을 튜닝하는 데 사용될 여지가 있음
  • 독립적이고 공정한 평가 목적이라면, 한 번만 평가하고 다른 용도로 사용하지 않는 편이 바람직하다는 의견이 나옴

AI 안전성 우려

  • Epoch AI는 AI의 발전 추세를 추적하고 안전을 고민하는 단체로 알려져 있음
  • FrontierMath에 문제를 제공한 수학자 중에는, 오히려 AI 능력 향상을 위해 이용될 줄 몰랐다면 기여하지 않았을 사람도 있을 가능성이 있음
  • 결국 OpenAI가 원치 않는 사람들에게서 간접적으로 문제를 마련해 모델을 검증·개발한 셈이 된다는 지적임
  • 이러한 불투명성은 AI 안전이나 연구 윤리 측면에서 우려를 낳음

AI Safety Researcher인 meemi의 댓글

  • FrontierMath가 OpenAI 자금을 받았음
  • 이 사실이 12월 20일 이전에는 외부에 투명하게 공개되지 않았다는 지적이 있음
  • Arxiv에 올라간 초기 버전(v1–v4)들은 OpenAI 지원에 대한 언급이 없었고, 12월 20일 이후 공개된 버전에서 비로소 언급되었다는 배경임
  • Epoch AI가 OpenAI와 어떤 합의를 했는지는 명확히 알려지지 않았지만, o3 발표(12월 20일) 시점 전까지는 자금 지원 사실을 비공개로 유지했을 가능성이 제기됨
  • 수학 문제 제작에 참여한 수학자들에게는, OpenAI 자금 지원 사실이 (적극적으로) 전달되지 않았다고 언급됨
  • 계약직 참여자들은 NDA를 체결하고 문제와 해답을 메일이나 Overleaf 등으로 공유하지 못하게 하는 등 보안을 엄격히 유지했음
  • 다만 이들에게 OpenAI의 자금 지원 사실이나 데이터 활용 가능성은 명확히 전달되지 않았다는 지적이 있음
  • 일부 저자들조차도 OpenAI가 펀딩한다는 사실을 몰랐을 수 있다는 주장이 나옴
  • 대부분 사람들과 계약직 참여자들은 “이 벤치마크의 문제와 답은 전적으로 비공개로 유지되며, 오직 Epoch만 사용한다”는 인식을 가졌던 것으로 보임
  • 현재 Epoch AI나 OpenAI는 공개적으로 “OpenAI가 문제나 해답에 접근한다”는 사실을 밝히지 않고 있으나, 실제로는 OpenAI가 이를 활용한다는 소문이 있음
  • 이 데이터셋을 학습용으로 활용하지 못하도록 제한하는 명시적 합의가 있는지 불투명하다는 언급이 있음
  • 결과적으로, 자금 지원 및 데이터 활용 가능성에 대해 명확하게 공개하고, 문제를 제작하는 계약직에 충분한 정보를 제공했어야 한다는 비판적 시각이 존재함

Epoch AI 소속 Tamay의 댓글

  • Epoch AI 소속 Tamay가 직접 투명성 문제를 인정함
    • OpenAI의 관여 사실을 o3 출시 전까지 공개할 수 없었던 계약 조건이 존재했음
    • 이후 투명성이 부족했다는 점을 시인하며, 기여자들에게 더 일찍 정보를 제공해야 했다고 언급함
    • 자금 출처와 데이터 접근 권한에 대해 명시적으로 전달할 수 없었던 부분에 대해 자체적인 잘못을 인정함
  • 향후 협업에서의 투명성 개선 약속
    • 향후에는 기여자들이 처음부터 자금 출처와 데이터 접근, 사용 의도를 명확히 알 수 있도록 노력할 것임
    • 일부 수학자들에게는 연구실 자금을 받는다고 언급했지만, 체계적으로는 전달되지 않았음
    • 특정 연구실 이름(즉, OpenAI)을 밝히지 않고 진행한 점이 문제였다고 봄
    • 처음부터 이러한 협력 관계를 공개하기 위해 더 강하게 협상했어야 했다고 언급함
  • o3 출시 시점까지 공개가 제한된 문제
    • 계약상 의무로 인해 OpenAI와의 파트너십을 o3 출시 즈음까지 공개하지 못했던 상황이었음
    • 문제를 만드는 수학자들은 자신의 작업이 누구에게 전달될 수 있는지 알 권리가 있었음
    • 계약으로 인해 기여자에게 제대로 설명하지 못한 것을 반성함
  • 데이터 접근과 훈련 사용 가능성
    • OpenAI가 FrontierMath 문제와 해답 중 상당 부분에 접근 가능함
    • 다만 훈련 용도로 활용하지 않겠다는 구두 합의가 있다고 말함
    • OpenAI 직원들은 FrontierMath를 “강력히 보유 중인 테스트 세트(strongly held out set)”라고 공개적으로 언급함
    • 실제로 독립 검증용으로 OpenAI가 접근하지 못하는 별도의 holdout 세트가 존재함
    • 이로써 과도한 모델 훈련이나 오버피팅을 방지하고, 객관적 성능 측정을 유지하고자 함
  • FrontierMath의 원래 목적
    • 애초에 FrontierMath는 평가용으로 기획·발표된 프로젝트였음
    • OpenAI 역시 실질적인 테스트 세트를 유지하는 결정에 지지를 보였다고 함
    • 학계와 연구실 모두 진정으로 오염되지 않은(훈련에 사용되지 않은) 테스트 세트를 확보하는 것이 중요하다고 강조함
  • [수정] OpenAI의 데이터 접근 범위
    • 오해를 줄이기 위해, OpenAI는 최종적으로 독립 검증을 위한 별도의 holdout 세트에는 접근 권한이 없다는 점을 명시함
Hacker News 의견
  • 구두 합의가 모델 훈련에 사용되지 않을 것이라는 약속이 있었음에도 불구하고, 이러한 합의는 종종 위반될 수 있음을 지적함

    • OpenAI가 벤치마크 데이터를 접근할 수 있었지만, 구두로만 훈련에 사용하지 않겠다고 합의한 점에 대해 회의적인 시각을 가짐
  • Epoch 공동 창업자가 OpenAI가 FrontierMath 문제와 솔루션에 접근할 수 있음을 인정했지만, 구두 합의로 훈련에 사용하지 않기로 했음을 언급함

    • 구두 합의의 신뢰성에 의문을 제기하며, OpenAI가 기술적으로 합의를 준수하면서도 벤치마크에서 부당한 이점을 얻을 수 있는 방법이 많음을 지적함
  • OpenAI의 마케팅을 그대로 믿는 사람들에 대한 비판

    • Sora 데모가 수작업 편집을 포함했음에도 불구하고 이를 언급하지 않은 사례를 예로 듦
  • Epoch AI의 Tamay가 OpenAI의 참여에 대해 더 투명하지 못했던 점을 인정함

    • 계약상 정보 공개가 제한되었고, 벤치마크 기여자들에게 더 빨리 투명성을 제공하기 위해 더 강하게 협상했어야 했음을 후회함
  • OpenAI의 벤치마크 결과가 신뢰를 잃었으며, 다른 AI 회사들이 FrontierMath에서 중요한 결과를 얻을 기회를 가졌음을 언급함

  • LLMs나 AI가 실제로 똑똑한지 확인하려면 질문이 훈련 세트에 포함되지 않았음을 증명해야 한다고 주장함

    • 질문이나 답변이 훈련 세트에 포함되지 않았음을 알지 못한다면 AI가 똑똑하다고 주장하지 말아야 함
  • 벤치마크를 고의적으로 속이지 않더라도 반복적으로 같은 테스트를 받으면 과적합이나 p-해킹이 발생할 수 있음을 지적함

    • 작은 변화가 실제 개선인지 노이즈인지 판단하기 어려울 수 있으며, 연구자들이 노이즈에 기반하여 최적화를 발견했다고 믿을 수 있음을 설명함
  • OpenAI가 대중을 오도하는 것에 대한 불쾌감을 표현함

    • CEO의 행동이 FrontierMath와 Epoch AI의 평판을 망칠 것임을 언급함
  • AI 회사들이 자체 평가를 구축할 가능성이 높아지고 있으며, 공공 벤치마크는 소진되었고 더 많은 프론티어 벤치마크에 투자해야 할 필요성을 강조함

  • AI 회사들이 제시하는 평가 결과는 신뢰할 수 없다고 주장함