GPT-5.4 Pro가 하이퍼그래프의 Ramsey형 수학 난제 해결

(epoch.ai)

2P by GN⁺ 4달전 | ★ favorite | 댓글 1개

GPT-5.4 Pro가 Kevin Barreto와 Liam Price의 협업을 통해 하이퍼그래프 관련 Ramsey형 문제를 해결함
문제 제안자 Will Brian이 해법의 정확성을 검증했으며, 전체 대화 기록과 AI의 최종 해설 문서가 공개됨
해법은 기존 하한 구성의 비효율을 제거하고 상한의 대칭적 구조를 제시해, Ramsey 이론에서 드문 정합성을 달성함
이후 FrontierMath: Open Problems 프레임워크에서 여러 모델이 동일 문제를 해결하며, AI의 수학적 추론 능력 검증 도구로서 유효성이 입증됨
이 성과는 AI가 미해결 수학 문제 해결에 실질적으로 기여할 수 있음을 보여주는 사례로 평가됨

하이퍼그래프의 Ramsey형 문제 해결

GPT-5.4 Pro가 Kevin Barreto와 Liam Price의 협업을 통해 하이퍼그래프 관련 난제인 Ramsey형 문제를 해결함
- 문제 제안자 Will Brian이 해법의 정확성을 검증함
- 해결 과정 전체 대화 기록과 GPT-5.4 Pro의 최종 해설 문서가 공개됨
Brian은 이 해법이 기존 하한 구성의 비효율성을 제거하고, 상한 구성의 복잡성과 대칭적 구조를 보인다고 평가함
- 하한과 상한이 정합적으로 일치하는 결과로, Ramsey 이론 문제에서 드문 수준의 일관성을 달성함
- 그는 이 결과를 논문으로 정리할 예정이며, AI의 아이디어에서 파생된 추가 연구도 포함될 가능성이 있음
이후 Epoch AI는 FrontierMath: Open Problems 테스트 프레임워크를 완성하여 동일 문제를 여러 모델에 적용함
- Opus 4.6 (max), Gemini 3.1 Pro, GPT-5.4 (xhigh) 모델도 문제 해결에 성공함
- 이는 FrontierMath 환경이 AI 모델의 수학적 추론 능력 평가에 유효함을 보여줌

문제 정의

문제는 무한 급수 집합의 동시 수렴성 연구에서 등장하는 수열 (H(n))의 하한을 개선하는 데 초점이 맞춰짐
- 하이퍼그래프 ((V, \mathcal H))가 크기 (n)의 분할(partition) 을 포함한다는 것은, (D \subseteq V), (\mathcal P \subseteq \mathcal H)가 존재하여 (|D| = n)이고, (D)의 각 원소가 정확히 하나의 (\mathcal P) 원소에 포함되는 경우를 의미함
- (H(n))은 고립된 정점이 없고, 크기 (n)보다 큰 분할을 포함하지 않는 하이퍼그래프의 최대 정점 수 (k)로 정의됨
알려진 (H(n))의 하한은 비최적적일 가능성이 높으며, 새로운 하이퍼그래프 구성을 통해 개선이 가능하다고 여겨짐
- 목표는 (H(n) \ge c \cdot k_n) (단, (c > 1))을 만족하는 알고리듬을 찾는 것
- (k_n)은 재귀식 (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor})로 정의됨

문제 구성 단계

Warm-up 단계
- 이미 알려진 해법이 존재하는 (n) 값에 대해 하이퍼그래프를 구성
- 조건: (|V| ≥ 64), (|H| ≤ 20), 크기 20을 초과하는 분할이 없음
Single Challenge 단계
- 알려진 해법이 없는 (n) 값에 대해 동일한 조건으로 하이퍼그래프를 찾는 과제
- 조건: (|V| ≥ 66), (|H| ≤ 20), 크기 20을 초과하는 분할이 없음
Full Problem 단계
- 모든 (n)에 대해 작동하는 일반 알고리듬을 요구
- 입력 (n)에 대해 (H(n) ≥ c \cdot k_n)을 만족하는 하이퍼그래프를 생성해야 함
- (n ≤ 100)일 때 일반 노트북에서 10분 내 실행 가능해야 함

수학자 평가

이 문제에 익숙한 수학자는 약 10명 수준으로, 전문 분야 연구자 다수가 포함됨
실제로 문제 해결을 시도한 수학자는 5~10명 정도로 추정됨
전문가가 문제를 해결하는 데 걸릴 예상 기간은 1~3개월
해결 시 전문 학술지에 게재 가능한 수준으로 평가됨
문제의 풍부함으로 인해 해결이 새로운 수학적 연구로 이어질 가능성이 높음
명시된 조건 하에서 문제가 해결 가능할 확률은 95–99% 로 평가됨

GN⁺ 4달전 [-]

Hacker News 의견들

많은 사람들이 “LLM은 진정한 창의성을 가질 수 없다”고 단정하는 걸 보면 놀라움
단순히 “훈련 데이터에 없으니 불가능하다”고 말하는 건 부족함. 이미 수많은 반례가 있음
그렇다면 왜 어떤 새로운 과제는 가능하고, 어떤 건 불가능하다고 생각하는지 근거가 필요함
만약 ‘새로움’이 연속선상에 있다고 인정한다면, 어디서 선을 긋는지, 어떤 증거가 나오면 생각이 바뀔지 궁금함
- 스스로 질문에 답해보자면, LLM의 근본적 한계에 대한 논리적 주장도 있음
  1. 인간 데이터를 학습하니 인간의 한계를 모방함
  2. 경험에서 배우지 않음
    하지만 반론도 있음. 수학 올림피아드 금메달을 딴 모델을 보고 첫 번째 주장은 버렸음
    또 RL과 메모리 추가로 두 번째 한계도 극복 가능할 듯함
    어쩌면 대형 LLM이 인간처럼 정보를 내재화할 수도 있음
    관련 예시: METR 블로그 글
- LLM은 본질적으로 무엇이든 생성할 수 있음. 다만 자신이 만든 걸 이해하지 못함
  인간은 “진정한 새로움”을 너무 거창하게 정의함 — 예를 들어 초전도체 공식이나 신약 개발 같은 것
  하지만 사실 신발끈 묶는 새로운 방법도 ‘형식적’으로는 새로움임
  LLM은 이런 사소한 문제들을 무수히 해결할 수 있지만, 인간이 감탄할 만큼 의미 있는 혁신은 아닐 수 있음
- macOS에서 앱 창을 ‘투명하게 보는’ 유틸리티를 만들고 있었는데, Claude Code가 ScreenCaptureKit을 쓰지 말라고 제안했음
  성능 오버헤드를 이유로 정확히 거부하고 완전히 다른 접근을 제시했음
  대단히 새로운 문제는 아니지만, 꽤 창의적인 해결책이라 놀라웠음
  프로젝트 이미지
- LLM이 새로운 곱셈 문제를 풀 수 있는 이유는, 훈련 중 수많은 곱셈 예시를 보고 압축된 추상 전략을 학습했기 때문임
  단순 암기가 아니라, 신경망 내부 회로로 일반화된 연산을 내재화한 것임
- 대부분의 발명은 세 가지 기존 아이디어의 보간(interpolation) 결과임. 이런 시스템은 그걸 아주 잘함
AI가 어려운 문제를 스스로 풀 수 있다면 믿겠다고 생각했는데, 이번 결과가 진짜라면 이제 신봉자가 된 느낌임
더 많은 사례를 보고 싶지만, 세상이 정말 새롭고 흥미롭게 변하고 있음
- 수학·코딩 대회 문제는 규칙이 명확하고 검증이 쉬워서 학습이 용이함
  하지만 코드 품질처럼 정의가 모호한 영역에서는 환각이 늘어남
  AlphaGo처럼 스스로 학습하는 가치 함수가 없기에, RL만으로는 한계가 있음
- “새롭고 흥미로운 세상”이라기보다, 이제부터는 끝없는 재탕의 시대가 올 것 같음
  AI는 끊임없이 ‘괜찮은 수준’의 콘텐츠를 만들어내지만, 진짜 감동은 사라짐
  인간이 주고받던 좋은 것들은 줄고, 나쁜 것들만 증폭된 느낌임
- LLM은 단지 리믹서(remixer) 임. 과거에 존재하던 문자 조합만 예측할 뿐, 완전히 새로운 패턴은 스스로 만들지 않음
- 왜 ‘어려운 문제 해결’을 AI의 기준으로 삼는지 궁금함
  대부분의 인간도 그런 문제를 못 푸는데, AI는 이미 일반 지식 작업에서는 탁월함
  이런 기준이라면 그건 AGI나 ASI에 가까운 정의임
- 유명 VC들이 DeepSeek이 전자기학 입문 수준 문제를 풀었다며 “초천재 모델”이라 했지만, 과장된 듯함
  진짜로 어떤 문제였는지, 전문가의 검증이 필요함
인간이 특별하다는 기본 가정이 여전히 너무 강하다고 느낌
“그냥 여러 시도를 하다 보니 되는 것”이라는 설명이 인간에게도 적용될 수 있음을 잘 생각하지 않음
과학적 사고를 중시하는 커뮤니티에서도 인간 예외주의가 깊게 자리함
- 인간은 단 20와트로 경험 없이 추론할 수 있는 능력을 가짐. 그건 분명 특별함
- 이번 성취도 결국 인간이 문제를 만들고, AI와 협력해 검증했기에 의미가 있음
  AI가 스스로 목표를 세우거나 성취를 인식하지 못함
  막대한 비용을 들여 얻은 건 사소한 수학적 진전뿐일 수도 있음
- 인간이 특별하다는 건 단순한 믿음이 아니라, 신경과학·인지과학이 다루는 실증적 사실임
  나는 기능주의자지만, LLM의 ‘지능처럼 보이는 것’이 진짜 지능이라고는 생각하지 않음
- 인간의 독특함을 이해하려면 Orchestrated Objective Reduction 이론을 참고할 만함
- 인간이 특별하다는 게 아니라, 통계 모델은 틀을 벗어난 사고를 거의 못 한다는 뜻임
GPT‑5.4 Pro와의 전체 대화와 결과 보고서가 공개되어 있음
대화 전문 / 결과 요약
- 제공된 solution template 파일의 실제 내용이 궁금함
  또, 사용자가 중간에 토큰 사용량을 업데이트하며 문맥을 확장한 방식이 흥미로움
Opus 4.6이 약 25만 토큰을 소비했다는 점에서, 토큰 수를 문제 난이도의 지표로 상상해봄
오늘 한 React 리팩터링이 수학 난제의 절반쯤 어려웠다는 셈이라 웃김
- 농담 같지만, 수학은 본질적으로 매우 폐쇄적 분야라 실제로 그럴 수도 있음
  어떤 문제는 전 세계 5~10명만 시도해봤을 정도임
  동기 부족으로 미완성된 소프트웨어처럼, 수학 문제도 단순히 시도자가 적어서 미해결일 수 있음
  그래도 AI가 이런 문제를 푼 건 기적 같은 일임
- 컨텍스트 관리가 중요함. 토큰 낭비는 성능 저하로 이어짐
  컨텍스트가 커져도 비용은 늘고, 공급자가 단가를 올릴 수도 있음
- Opus 4.6과 GPT‑5.4 Pro의 출력 비교 결과, 전자는 더 다양한 검증 시도와 사고의 흐름을 보여 흥미로웠음
- 수학은 변수 하나에 토큰 하나지만, 소프트웨어는 가독성 때문에 훨씬 많은 토큰을 씀
- 토큰 수는 복잡도의 지표가 아님. 데이터 중심 문제는 단순 사고형 문제보다 훨씬 많은 토큰을 소비함
AI의 능력은 훈련된 비용 함수(cost function) 에 의해 결정됨
결국 지능이란 복잡한 비용 함수를 최소화하는 과정임
수학·코딩처럼 자동 검증이 가능한 분야에서 RLVR 같은 접근이 빠르게 발전할 것임
하지만 사회적 보상이나 불확실성이 큰 영역에서는 진전이 느릴 수 있음
- “비용 함수로 표현할 수 없는 문제도 있다”는 반론이 있음
  예를 들어 복소수의 도입은 표현 최적화의 결과로 볼 수도 있음
도메인 전문가들이 자신의 문제 해결 방식을 LLM에 학습시키고 있음
결국 LLM은 그들의 사고 패턴을 모방하며 문제를 해결하게 됨
기존 증명을 재샘플링하는 방식으로 풀 수 있는 문제들이 많다고 생각함
인간이라면 미쳐버릴 반복 탐색을 기계는 끈질기게 수행할 수 있음
큰 진보는 아니지만, 추측을 정리로 바꾸는 역할은 가능함
- 문제는 그 증명이 의미 있는가임. 대부분은 기존 패러다임 안의 반복일 가능성이 큼
  완전히 새로운 시야를 여는 경우는 드묾
  토큰 낭비일 수도 있음
- 모든 발견은 조합적 합성의 결과라고 생각함. 완전한 무(無)에서 나온 건 거의 없음
- 그렇다면 ‘진정한 새로움’을 평가할 벤치마크 설계는 어떻게 해야 할까 궁금함
Epoch의 Open Problems 페이지에 15개의 문제와 난이도 분류가 있음
이번에 해결된 건 ‘moderately interesting’ 단계로, 가장 쉬운 축에 속함
그래도 해결 전부터 공개된 문제였다는 점이 인상적임
앞으로 같은 단계의 나머지 3문제도 얼마나 빨리 풀릴지 궁금함
- 어떤 난제든 LLM이 푼다는 건 이미 공상과학 수준의 사건이라 생각함
제목이 다소 오해의 소지가 있음
실제 제목은 “A Ramsey-style Problem on Hypergraphs”이며, GPT‑5.4만이 아니라 여러 최신 모델이 해결했음
그래도 여전히 멋진 성취임

답변달기

GPT-5.4 Pro가 하이퍼그래프의 Ramsey형 수학 난제 해결

하이퍼그래프의 Ramsey형 문제 해결

문제 정의

문제 구성 단계

Warm-up 단계

Single Challenge 단계

Full Problem 단계

수학자 평가

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들