4P by GN⁺ 11시간전 | ★ favorite | 댓글 1개
  • OpenAI가 개발한 실험용 추론 LLM이 2025년 국제수학올림피아드(IMO)에서 금메달 수준의 성적을 기록함
  • 공식 IMO 규정과 동일하게 문제 풀이 및 자연어 증명 작성, 인간 채점자 3인의 만장일치 채점으로 42점 만점 중 35점(6문제 중 5문제 해결) 획득
  • IMO 문제는 고난도 창의적 사고·다단계 증명 요구, LLM이 기존 RL 방식 한계를 넘어 인간 수준의 논리적 증명 생성 가능성 입증
  • 특정 과제 중심이 아닌 범용 강화학습 및 테스트 타임 연산 확장으로 달성한 점이 큰 의미를 가짐
  • 모델은 곧 출시될 GPT-5와는 별개인 연구용 버전이며, 수학 최상위 성능 공개는 수개월 후 예정

OpenAI LLM의 IMO 2025 성과 개요

  • OpenAI의 Alexander Wei (@alexwei_)는 최신 실험용 추론 언어 모델이 2025 IMO에서 금메달 기준 성적을 기록했다고 발표함
    • IMO는 전 세계에서 수학적으로 가장 뛰어난 청소년들이 참가하는 고난도 대회로, 복잡한 논리적 추론과 깊은 개념적 이해력이 요구되는 문제로 유명함
  • 평가 방식은 인간 참가자와 동일하게 2회 4.5시간 시험, 공식 문제지 사용, 외부 도구 미사용, 자연어 증명 제출로 진행
  • 각 문제는 3명의 전직 IMO 메달리스트가 독립 채점 후 만장일치 합의로 점수 확정

성과의 의의와 진화된 난이도

  • IMO 문제는 기존 벤치마크(GSM8K, MATH, AIME)보다 훨씬 긴 사고 시간·창의성·복잡한 논증을 요구
  • 이번 모델은 5문제(P1~P5) 완전 해결, P6은 미제출로 35/42점 획득, 실제 IMO 금메달 기준을 충족
  • 수 페이지에 달하는 논리적 증명 생성 능력은 기존 강화학습(RL) 한계를 넘어섬

연구 접근 및 AI 발전의 맥락

  • 특정 문제풀이만을 위한 모델이 아닌, 범용 RL 및 계산 확장 기반으로 고성능 달성
  • 기존 RL이 제공하는 명확한 보상체계 없이 복잡한 창의적 산출물 생성에 성공
  • 실험용 모델로 곧 출시될 GPT-5와 별개이며, 이 수준의 수학 기능은 수개월 내 일반에 공개하지 않을 예정

향후 전망 및 커뮤니티 언급

  • AI 수학능력의 진보 속도가 예상치를 크게 앞지름(2021년 기준 MATH 벤치마크 30% 예측 대비 IMO 금메달 달성)
  • Alexander는 2025 IMO 참가자 모두에게 축하 인사를 전하며, 팀 내 과거 IMO 참가자들이 많다는 점도 강조
  • 모델의 2025 IMO 문제 풀이도 공개 예정이나, 실험적 스타일임
Hacker News 의견
  • Noam Brown: 최첨단 연구소에서 일하면 보통 몇 달 앞서 새로운 능력을 미리 보는 경험을 하게 됨, 그런데 이번 결과는 아주 최근에 개발된 기법을 사용한 정말 새로운 성과였음, OpenAI 내부 연구원에게도 놀라운 일이었음, 오늘에야 누구나 어디까지가 최첨단인지 확인할 수 있게 됨
    또한, 이번 성과는 소수 팀이 주도했는데 Alex Wei가 별로 믿는 사람도 적었던 연구 아이디어를 실제 성과로 만들어 냄, OpenAI와 AI 커뮤니티의 오랜 연구와 엔지니어링도 큰 역할을 했음
    링크: https://x.com/polynoamial/status/1946478258968531288

    • 그 신기술이란 게 설마 테스트 데이터로 훈련한 건 아니길 바람 /농담임
  • 흥미롭게도, IMO 풀이들이 상당히 제한된 어휘를 사용하는 게 인상적임
    링크: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt “적은 단어가 더 효과적일 때 굳이 말을 길게 할 필요 없음”
    그리고 주목할 점은 Alex Wei 본인도 IOI 금메달리스트라는 사실임

    • 한편으로, 실제 참가자가 푸는 중 남기는 노트와 비슷해 보인다는 점이 재미있음, 불필요한 말을 줄이면 정보의 잡음이 줄어 집중력에 더 도움임, 특히 LLM이 한 번에 한 토큰씩 생성하고 맥락 길이 제한이 있는 구조라, 의미 있는 토큰만 쓴다면 더 긴 일관성 있는 사고 흐름으로 이어질 수도 있을지 궁금함
    • IOI(정보올림피아드)에서 금메달을 딴 사람인데, 여기 논의는 IMO(수학올림피아드)에 관한 것이라는 점이 재밌음
    • Terence Tao 역시 최근 팟캐스트에서 올해 LLM이 금메달 딸 거라고 예측했음
    • 트랜스포머에서는 어떤 의미를 담았든 각 토큰 생성에 똑같은 시간이 걸림, 텍스트에서 반복적이거나 불필요한 부분을 잘라내면 속도가 대폭 빨라짐
    • “see the world”라 했을 때 “세상을 보라”인지 아니면 “seaworld(씨월드)” 같은 발음장난인지 물어보고 싶음
  • 이게 고등학생 수준이라 얕잡아 보는 사람들은 IMO 문제를 한 번 풀어보길 추천함, 올해 문제도 포함해 모두 공개되어 있음
    링크: https://www.imo-official.org/problems.aspx
    나는 머리가 어지러움

    • 관련해서, 이런 문제를 어떻게 실제로 고민하고 해결해 나가는지 보여주는 영상들이 있음
    • 이런 문제 풀이 유튜브 영상 보는 걸 좋아함, 표면적으로는 간단해 보여도 속임수 같음
      예를 들어 x+y=1, xy=1 문제 같은 걸 봤는데 막상 풀이는 우리가 아는 기본 대수학(인수분해, 근의 공식 등) 방식만 사용하는데도 설명마저 아름다움
      오래 생각하면 답을 찾을 수 있을 것처럼 느끼게 되지만 내 경험상 전혀 그렇지 않음
      링크: https://www.youtube.com/watch?v=csS4BjQuhCc
    • 이런 IMO 문제가 leetcode의 hard 난이도 문제와 비교하면 어떤지 궁금함
    • IMO 문제에 여러 언어 버전이 있다는 건 이번에야 알았음
      50개 언어쯤 되는 것 같은데, 그만큼 많으면 문제 유출 등 보안 유지가 훨씬 어려워질 수 있다는 점이 떠오름
  • 이런 문제들이 고교생 수준이라는 건 배경지식 기준일 뿐이고, 매우 어려운 편임
    IMO 출신이 아닌 전문 수학자들도 이런 퍼포먼스를 내기 힘듦
    이게 AI가 수학적으로 인간보다 뛰어나다는 의미는 아니고, 수학자들은 수학의 프런티어를 확장하는 데 초점을 둠
    정답이 훈련 데이터에 들어 있는 게 아니라고 함
    그리고 이 모델은 IMO 문제에만 특화된 모델이 아니라고 주장함

    • 내 기억으론 데이터 과학을 할 때, 검증 세트 누출을 막는 게 생각보다 무척 어렵다는 사실이 떠오름
      훈련 과정을 계속 튜닝하고, 검증 세트 성능이 좋아지면 그에 맞춰 다시 구조와 데이터를 고름
      뭔가 의도하지 않아도 검증 세트 정보가 모델에 조금씩 스며듦
      검증 세트만 달리 골라도 완전히 다른 모델이 만들어짐
    • 정말 IMO 특화 모델이 맞는지 의심됨, 트위터 스레드에서는 “일반 추론”이라고 하던데, 정말 올림피아드 수학 문제로 RL(강화학습)하지 않았다면 OpenAI 측 공식 언급을 꼭 들어보고 싶음
    • “IMO에 특화된 모델이 아니다”라는 주장, 근거가 무엇인지 궁금함
    • “정답이 훈련 데이터에 없다”, “IMO 특화 모델이 아니다”에 어떤 근거나 증거가 있는지 궁금함
    • 아무리 봐도 IMO에 특화된 모델임이 거의 확실해 보임
      문제 답변하는 방식도 딱 그렇게 느껴짐
      예: https://xcancel.com/alexwei_/status/1946477742855532918
      실제 답변 스크린샷: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
      AlphaProof 스타일로 자연어와 Lean 같은 시스템을 왔다갔다 하는 것처럼 보임
      OpenAI는 이런 세부 구현을 공유하지 않을 것임
  • 스레드에서: “모델이 P1~P5는 풀었고, P6에는 답변을 못 냄”
    가장 어려운 문제(P6)는 인간도 거의 못 푸는 문제였고, 중국 대표팀조차 42점 만점에 21점만 득점했고, 다른 대부분 국가에선 아무도 못 풀었음

    • IMO에서는 첫째 날 P1,P2,P3, 둘째 날 P4,P5,P6를 보게 됨
      보통 난이도 순서는 P1, P4, P2, P5, P3, P6로 의도되고, P1이 가장 쉽고 P6가 가장 어려움
      현실에서는 이 순서와 다를 때도 있음
    • 캐나다팀 중 누군가가 P6를 풀긴 한 것 같지만, 전체적으로는 극히 일부임
    • 기계가 인간과 똑같이 어렵게 느끼는 문제(특히 P6)에서 못 푼다는 점은 인간이 개입했을 수도 있다는 힌트 같음
      단순히 기계적 우연이라 치더라도, 잘못된 답변도 출력할 수 있었을 텐데 오직 올바른 답변만 고른 건 아닌지, 즉 성공한 결과만 골라낸 건 아닌지 의문임
  • Google도 이번 IMO에 참여해서 금상을 받았음
    링크: https://x.com/natolambert/status/1946569475396120653
    OAI가 먼저 발표했으니 곧 구글도 공식 발표할 것 같음

    • Noam Brown의 “OpenAI 내부 연구자도 놀란 성과였다”는 언급을 보면, 여러 연구소가 동시에 이런 결과를 얻었다면 더더욱 놀랄 만함
      트위터에서 구글은 Lean을 쓴 반면, OpenAI는 도구 없이 LLM만 사용했다는 말이 있었음
      어떤 방식이든 결과 자체가 더 중요하긴 하지만, 구체적 기법의 한계와 발전 과정도 흥미로운 참고사항임
    • Google의 AlphaProof는 작년 은상을 땄고 뉴럴+심볼릭(기호적) 접근을 썼음
      OpenAI의 금상은 순수 LLM만으로 가능했다는 점이 특이함
      구글이 공식 발표하면 어떤 접근법을 썼는지 알 수 있을 것임
      LLM 방식의 장점은 수학적 증명뿐 아니라 다양한 추론 문제로 범용화될 가능성이 높다는 데 있음
  • Noam Brown:
    이건 IMO 특화 모델이 아니라, 새로운 실험적 범용 기법이 들어간 추론 LLM임
    o1, o3보다 사고 과정이 훨씬 효율적임, 테스트 시 효율성도 앞으로 더 밀어붙일 수 있음
    최근 AI 발전 속도가 빨랐지만, 앞으로도 계속될 것으로 기대하고 있음
    특히 AI가 과학적 발견에 본격적으로 기여할 시점에 근접했다고 봄
    나는 최근까지 발전이 느려지고 있다고 생각했지만, 여러 주장(특화 모델이 아니라는 점과 효율성 향상 가능성)에서 실질적 진보가 아주 분명함
    링크: https://x.com/polynoamial/status/1946478249187377206

    • “시험 문제를 푸는 모델”에서 “과학적 발견에 기여하는 AI”까지의 도약에는 상당한 차이점이 있다고 생각함
    • 꿈 같은 이야기이지만, 변호사 시험 등 특정 시험에 맞춰 미세 조정한 것처럼, 이런 모델들도 대개 이전 버전의 시험 문제에 이미 훈련된 경우가 많음
    • 파인튜닝 과정에서 도구 사용(자동 증명 툴 등)이 함께 쓰였는지 궁금함
    • “o1, o3보다 사고가 더 효율적임”이라는 부분,
      “상대가 (고정된) 응답 방식을 취하면 절대 지지 않음. 그녀가 이기려면(상대가 지게 하려면) Q_{even-1}>even, 즉 어떤 a_j> sqrt2가 되어야 하는데, 이미 a_j<=c< sqrt2임. 그래서 절대 질 수 없음” 등등
      적은 말로 효율을 극대화하려는 태도가 보임
      링크: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
    • 이제는 데이터가 부족한 “피크 데이터”에 도달한 시점에서, 효율 향상의 뚜렷한 발전 경로가 무엇인지 궁금해짐
  • 정말 인상적인 성과인데, 어떻게 해낸 건지 궁금함
    Wei가 추론한 “테스트 시 연산 자원 확대(scaling up test-time compute)”를 보면, 엄청난 돈을 쏟아부었을 것 같음
    수천~만 번 병렬로 돌리고 최적 결과만 골랐다면 실망임
    정말 제대로 된 성과라면 어떤 도구를 썼고 어떻게 활용했는지 투명하게 밝혀야 함
    어렵게 검증되는 문제에서 성능을 높이는 여러 기법이 아마 여기에 들어갔을 것 같음

    • 병렬로 10000번 돌려도 그렇게 덜 흥미로운 건 아님
      오히려 정답의 정확성과 엄밀함을 구분해낼 수 있다는 뜻이고, 이는 사람이 드물게나마 풀어내는 것과 다르지 않음
    • 트위터 스레드에 따르면 별도의 도구는 주어지지 않았다고 함
    • 실제로 OpenAI가 수천~만 번 병렬로 돌리고 결과만 골랐을 가능성이 높다고 봄
      이게 초기 o3 ARC 벤치마크 때도 그랬던 방식임
      아마 복수의 에이전트가 협업하는 방식일 수도 있으니, 맥락 길이(토큰 수 제한)는 우회 가능했을 것임
      이제는 AI가 웬만한 수학 문제에서 이미 99.99% 인간을 넘어섰으니, 99.999%를 이긴다고 해도 딱히 놀랄 일은 아님
    • 만약 OpenAI가 10000번 돌리고 사람이 직접 결과를 골랐다면 의미가 크게 달라짐
      LLM이 스스로 검증해 가며 채택한 것이면, 사람이 어려운 문제를 여러 번 시도해 풀어내는 과정과 유사함
      차이는 AI는 연산 자원이 많아 병렬로 할 수 있다는 점, 인간은 순차적으로만 시도 가능함
  • 이 대회(IMO)가 워낙 상위권 대회라 프로그래머 커뮤니티에서도 정확히 이 대회가 뭔지 모르는 사람이 많은 것 같음
    간단히 계산해보면 미국 기준으로 캠프에 선발된 인원(금메달 가능성) 대략 20명, 전체 해당 세대 고등학생 중 2천만 명을 기준으로 하면, “백만 명 중 한 명 꼴” 탈렌트임

    • 대회 난이도가 엄청나다는 점을 폄하하려는 의도는 아님
      나도 명문고를 나왔지만 IMO란 걸 대학 가서 참가자들을 만나기 전엔 들어본 적이 없음
      실제로 대회를 인지하고 참가하는 학생 수는 전체 학생 수보다 훨씬 적음
      실력을 떠나 많은 학생이 기회와 정보만 제대로 있었다면 좋은 결과도 가능했을 것 같음
  • 최근 LLM의 IMO 2025 평가 관련 보고서를 봤는데, o3 high는 동상 등급도 못 탔음
    링크: https://matharena.ai/imo/
    Terry Tao 의견도 기대되지만, 이런 분야 발전이야말로 AI의 긍정적 활용이라고 생각함
    경제가 준비되지도 않은 상태에서 무분별한 혁신보다는, 과학 발전을 앞당기는 쪽으로 기여했으면 하는 바람임