GPT-5.4 Pro가 하이퍼그래프의 Ramsey형 수학 난제 해결
(epoch.ai)- GPT-5.4 Pro가 Kevin Barreto와 Liam Price의 협업을 통해 하이퍼그래프 관련 Ramsey형 문제를 해결함
- 문제 제안자 Will Brian이 해법의 정확성을 검증했으며, 전체 대화 기록과 AI의 최종 해설 문서가 공개됨
- 해법은 기존 하한 구성의 비효율을 제거하고 상한의 대칭적 구조를 제시해, Ramsey 이론에서 드문 정합성을 달성함
- 이후 FrontierMath: Open Problems 프레임워크에서 여러 모델이 동일 문제를 해결하며, AI의 수학적 추론 능력 검증 도구로서 유효성이 입증됨
- 이 성과는 AI가 미해결 수학 문제 해결에 실질적으로 기여할 수 있음을 보여주는 사례로 평가됨
하이퍼그래프의 Ramsey형 문제 해결
-
GPT-5.4 Pro가 Kevin Barreto와 Liam Price의 협업을 통해 하이퍼그래프 관련 난제인 Ramsey형 문제를 해결함
- 문제 제안자 Will Brian이 해법의 정확성을 검증함
- 해결 과정 전체 대화 기록과 GPT-5.4 Pro의 최종 해설 문서가 공개됨
- Brian은 이 해법이 기존 하한 구성의 비효율성을 제거하고, 상한 구성의 복잡성과 대칭적 구조를 보인다고 평가함
- 하한과 상한이 정합적으로 일치하는 결과로, Ramsey 이론 문제에서 드문 수준의 일관성을 달성함
- 그는 이 결과를 논문으로 정리할 예정이며, AI의 아이디어에서 파생된 추가 연구도 포함될 가능성이 있음
- 이후 Epoch AI는 FrontierMath: Open Problems 테스트 프레임워크를 완성하여 동일 문제를 여러 모델에 적용함
- Opus 4.6 (max), Gemini 3.1 Pro, GPT-5.4 (xhigh) 모델도 문제 해결에 성공함
- 이는 FrontierMath 환경이 AI 모델의 수학적 추론 능력 평가에 유효함을 보여줌
문제 정의
- 문제는 무한 급수 집합의 동시 수렴성 연구에서 등장하는 수열 (H(n))의 하한을 개선하는 데 초점이 맞춰짐
- 하이퍼그래프 ((V, \mathcal H))가 크기 (n)의 분할(partition) 을 포함한다는 것은, (D \subseteq V), (\mathcal P \subseteq \mathcal H)가 존재하여 (|D| = n)이고, (D)의 각 원소가 정확히 하나의 (\mathcal P) 원소에 포함되는 경우를 의미함
- (H(n))은 고립된 정점이 없고, 크기 (n)보다 큰 분할을 포함하지 않는 하이퍼그래프의 최대 정점 수 (k)로 정의됨
- 알려진 (H(n))의 하한은 비최적적일 가능성이 높으며, 새로운 하이퍼그래프 구성을 통해 개선이 가능하다고 여겨짐
- 목표는 (H(n) \ge c \cdot k_n) (단, (c > 1))을 만족하는 알고리듬을 찾는 것
- (k_n)은 재귀식 (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor})로 정의됨
문제 구성 단계
-
Warm-up 단계
- 이미 알려진 해법이 존재하는 (n) 값에 대해 하이퍼그래프를 구성
- 조건: (|V| ≥ 64), (|H| ≤ 20), 크기 20을 초과하는 분할이 없음
-
Single Challenge 단계
- 알려진 해법이 없는 (n) 값에 대해 동일한 조건으로 하이퍼그래프를 찾는 과제
- 조건: (|V| ≥ 66), (|H| ≤ 20), 크기 20을 초과하는 분할이 없음
-
Full Problem 단계
- 모든 (n)에 대해 작동하는 일반 알고리듬을 요구
- 입력 (n)에 대해 (H(n) ≥ c \cdot k_n)을 만족하는 하이퍼그래프를 생성해야 함
- (n ≤ 100)일 때 일반 노트북에서 10분 내 실행 가능해야 함
수학자 평가
- 이 문제에 익숙한 수학자는 약 10명 수준으로, 전문 분야 연구자 다수가 포함됨
- 실제로 문제 해결을 시도한 수학자는 5~10명 정도로 추정됨
- 전문가가 문제를 해결하는 데 걸릴 예상 기간은 1~3개월
- 해결 시 전문 학술지에 게재 가능한 수준으로 평가됨
- 문제의 풍부함으로 인해 해결이 새로운 수학적 연구로 이어질 가능성이 높음
- 명시된 조건 하에서 문제가 해결 가능할 확률은 95–99% 로 평가됨
Hacker News 의견들
-
많은 사람들이 “LLM은 진정한 창의성을 가질 수 없다”고 단정하는 걸 보면 놀라움
단순히 “훈련 데이터에 없으니 불가능하다”고 말하는 건 부족함. 이미 수많은 반례가 있음
그렇다면 왜 어떤 새로운 과제는 가능하고, 어떤 건 불가능하다고 생각하는지 근거가 필요함
만약 ‘새로움’이 연속선상에 있다고 인정한다면, 어디서 선을 긋는지, 어떤 증거가 나오면 생각이 바뀔지 궁금함- 스스로 질문에 답해보자면, LLM의 근본적 한계에 대한 논리적 주장도 있음
- 인간 데이터를 학습하니 인간의 한계를 모방함
- 경험에서 배우지 않음
하지만 반론도 있음. 수학 올림피아드 금메달을 딴 모델을 보고 첫 번째 주장은 버렸음
또 RL과 메모리 추가로 두 번째 한계도 극복 가능할 듯함
어쩌면 대형 LLM이 인간처럼 정보를 내재화할 수도 있음
관련 예시: METR 블로그 글
- LLM은 본질적으로 무엇이든 생성할 수 있음. 다만 자신이 만든 걸 이해하지 못함
인간은 “진정한 새로움”을 너무 거창하게 정의함 — 예를 들어 초전도체 공식이나 신약 개발 같은 것
하지만 사실 신발끈 묶는 새로운 방법도 ‘형식적’으로는 새로움임
LLM은 이런 사소한 문제들을 무수히 해결할 수 있지만, 인간이 감탄할 만큼 의미 있는 혁신은 아닐 수 있음 - macOS에서 앱 창을 ‘투명하게 보는’ 유틸리티를 만들고 있었는데, Claude Code가 ScreenCaptureKit을 쓰지 말라고 제안했음
성능 오버헤드를 이유로 정확히 거부하고 완전히 다른 접근을 제시했음
대단히 새로운 문제는 아니지만, 꽤 창의적인 해결책이라 놀라웠음
프로젝트 이미지 - LLM이 새로운 곱셈 문제를 풀 수 있는 이유는, 훈련 중 수많은 곱셈 예시를 보고 압축된 추상 전략을 학습했기 때문임
단순 암기가 아니라, 신경망 내부 회로로 일반화된 연산을 내재화한 것임 - 대부분의 발명은 세 가지 기존 아이디어의 보간(interpolation) 결과임. 이런 시스템은 그걸 아주 잘함
- 스스로 질문에 답해보자면, LLM의 근본적 한계에 대한 논리적 주장도 있음
-
AI가 어려운 문제를 스스로 풀 수 있다면 믿겠다고 생각했는데, 이번 결과가 진짜라면 이제 신봉자가 된 느낌임
더 많은 사례를 보고 싶지만, 세상이 정말 새롭고 흥미롭게 변하고 있음- 수학·코딩 대회 문제는 규칙이 명확하고 검증이 쉬워서 학습이 용이함
하지만 코드 품질처럼 정의가 모호한 영역에서는 환각이 늘어남
AlphaGo처럼 스스로 학습하는 가치 함수가 없기에, RL만으로는 한계가 있음 - “새롭고 흥미로운 세상”이라기보다, 이제부터는 끝없는 재탕의 시대가 올 것 같음
AI는 끊임없이 ‘괜찮은 수준’의 콘텐츠를 만들어내지만, 진짜 감동은 사라짐
인간이 주고받던 좋은 것들은 줄고, 나쁜 것들만 증폭된 느낌임 - LLM은 단지 리믹서(remixer) 임. 과거에 존재하던 문자 조합만 예측할 뿐, 완전히 새로운 패턴은 스스로 만들지 않음
- 왜 ‘어려운 문제 해결’을 AI의 기준으로 삼는지 궁금함
대부분의 인간도 그런 문제를 못 푸는데, AI는 이미 일반 지식 작업에서는 탁월함
이런 기준이라면 그건 AGI나 ASI에 가까운 정의임 - 유명 VC들이 DeepSeek이 전자기학 입문 수준 문제를 풀었다며 “초천재 모델”이라 했지만, 과장된 듯함
진짜로 어떤 문제였는지, 전문가의 검증이 필요함
- 수학·코딩 대회 문제는 규칙이 명확하고 검증이 쉬워서 학습이 용이함
-
인간이 특별하다는 기본 가정이 여전히 너무 강하다고 느낌
“그냥 여러 시도를 하다 보니 되는 것”이라는 설명이 인간에게도 적용될 수 있음을 잘 생각하지 않음
과학적 사고를 중시하는 커뮤니티에서도 인간 예외주의가 깊게 자리함- 인간은 단 20와트로 경험 없이 추론할 수 있는 능력을 가짐. 그건 분명 특별함
- 이번 성취도 결국 인간이 문제를 만들고, AI와 협력해 검증했기에 의미가 있음
AI가 스스로 목표를 세우거나 성취를 인식하지 못함
막대한 비용을 들여 얻은 건 사소한 수학적 진전뿐일 수도 있음 - 인간이 특별하다는 건 단순한 믿음이 아니라, 신경과학·인지과학이 다루는 실증적 사실임
나는 기능주의자지만, LLM의 ‘지능처럼 보이는 것’이 진짜 지능이라고는 생각하지 않음 - 인간의 독특함을 이해하려면 Orchestrated Objective Reduction 이론을 참고할 만함
- 인간이 특별하다는 게 아니라, 통계 모델은 틀을 벗어난 사고를 거의 못 한다는 뜻임
-
GPT‑5.4 Pro와의 전체 대화와 결과 보고서가 공개되어 있음
대화 전문 / 결과 요약- 제공된 solution template 파일의 실제 내용이 궁금함
또, 사용자가 중간에 토큰 사용량을 업데이트하며 문맥을 확장한 방식이 흥미로움
- 제공된 solution template 파일의 실제 내용이 궁금함
-
Opus 4.6이 약 25만 토큰을 소비했다는 점에서, 토큰 수를 문제 난이도의 지표로 상상해봄
오늘 한 React 리팩터링이 수학 난제의 절반쯤 어려웠다는 셈이라 웃김- 농담 같지만, 수학은 본질적으로 매우 폐쇄적 분야라 실제로 그럴 수도 있음
어떤 문제는 전 세계 5~10명만 시도해봤을 정도임
동기 부족으로 미완성된 소프트웨어처럼, 수학 문제도 단순히 시도자가 적어서 미해결일 수 있음
그래도 AI가 이런 문제를 푼 건 기적 같은 일임 -
컨텍스트 관리가 중요함. 토큰 낭비는 성능 저하로 이어짐
컨텍스트가 커져도 비용은 늘고, 공급자가 단가를 올릴 수도 있음 - Opus 4.6과 GPT‑5.4 Pro의 출력 비교 결과, 전자는 더 다양한 검증 시도와 사고의 흐름을 보여 흥미로웠음
- 수학은 변수 하나에 토큰 하나지만, 소프트웨어는 가독성 때문에 훨씬 많은 토큰을 씀
- 토큰 수는 복잡도의 지표가 아님. 데이터 중심 문제는 단순 사고형 문제보다 훨씬 많은 토큰을 소비함
- 농담 같지만, 수학은 본질적으로 매우 폐쇄적 분야라 실제로 그럴 수도 있음
-
AI의 능력은 훈련된 비용 함수(cost function) 에 의해 결정됨
결국 지능이란 복잡한 비용 함수를 최소화하는 과정임
수학·코딩처럼 자동 검증이 가능한 분야에서 RLVR 같은 접근이 빠르게 발전할 것임
하지만 사회적 보상이나 불확실성이 큰 영역에서는 진전이 느릴 수 있음- “비용 함수로 표현할 수 없는 문제도 있다”는 반론이 있음
예를 들어 복소수의 도입은 표현 최적화의 결과로 볼 수도 있음
- “비용 함수로 표현할 수 없는 문제도 있다”는 반론이 있음
-
도메인 전문가들이 자신의 문제 해결 방식을 LLM에 학습시키고 있음
결국 LLM은 그들의 사고 패턴을 모방하며 문제를 해결하게 됨 -
기존 증명을 재샘플링하는 방식으로 풀 수 있는 문제들이 많다고 생각함
인간이라면 미쳐버릴 반복 탐색을 기계는 끈질기게 수행할 수 있음
큰 진보는 아니지만, 추측을 정리로 바꾸는 역할은 가능함- 문제는 그 증명이 의미 있는가임. 대부분은 기존 패러다임 안의 반복일 가능성이 큼
완전히 새로운 시야를 여는 경우는 드묾
토큰 낭비일 수도 있음 - 모든 발견은 조합적 합성의 결과라고 생각함. 완전한 무(無)에서 나온 건 거의 없음
- 그렇다면 ‘진정한 새로움’을 평가할 벤치마크 설계는 어떻게 해야 할까 궁금함
- 문제는 그 증명이 의미 있는가임. 대부분은 기존 패러다임 안의 반복일 가능성이 큼
-
Epoch의 Open Problems 페이지에 15개의 문제와 난이도 분류가 있음
이번에 해결된 건 ‘moderately interesting’ 단계로, 가장 쉬운 축에 속함
그래도 해결 전부터 공개된 문제였다는 점이 인상적임
앞으로 같은 단계의 나머지 3문제도 얼마나 빨리 풀릴지 궁금함- 어떤 난제든 LLM이 푼다는 건 이미 공상과학 수준의 사건이라 생각함
-
제목이 다소 오해의 소지가 있음
실제 제목은 “A Ramsey-style Problem on Hypergraphs”이며, GPT‑5.4만이 아니라 여러 최신 모델이 해결했음
그래도 여전히 멋진 성취임