GN⁺: 테렌스 타오의 O1 분석
(mathstodon.xyz)mathstodon.xyz 소개
- mathstodon.xyz는 Mastodon 기반의 탈중앙화된 소셜 네트워크의 일부로, 수학 관련 사용자들을 위한 인스턴스임.
- 웹 인터페이스에서 LaTeX 렌더링을 지원함.
- 관리자: Christian Lawson-Perfect (@christianp)
- 서버 통계: 3K 활성 사용자
Terence Tao의 GPT-o1 실험
- GPT-o1: OpenAI의 새로운 GPT 버전으로, LLM 실행 전에 초기 추론 단계를 수행함.
-
실험 1: 모호한 수학적 질문에 대한 답변에서 Cramer's theorem을 정확히 식별하고 만족스러운 답변을 제공함.
- 이전 버전에서는 관련 개념을 언급했지만 세부 사항이 잘못되었음.
-
실험 2: 복잡한 해석학 문제에 대한 도전에서 많은 힌트와 유도로 올바른 해결책을 도출했으나, 주요 개념적 아이디어를 스스로 생성하지 못하고 몇 가지 실수를 함.
- 이전 모델보다 개선되었으나 여전히 부족함.
- 향후 몇 번의 개선으로 연구 수준의 작업에 유용할 가능성이 있음.
-
실험 3: Lean에서 결과를 형식화하는 작업에서 문제를 잘 이해하고 초기 분해를 잘 수행했으나, 최신 Lean 정보 부족으로 코드에 여러 실수가 있었음.
- Lean과 Mathlib에 특화된 모델이 통합된 IDE에서 매우 유용할 수 있음.
추가 논의
-
AI 도구의 발전: 다양한 연구 작업을 처리할 수 있는 AI 도구 생태계의 출현을 기대함.
- 현재는 대형, 범용 LLM이 주목받고 있으나, 특정 응용 프로그램에 맞춘 경량 오픈 소스 모델도 중요한 역할을 할 것으로 예상됨.
-
AI와 대학원생 비교: AI 도구가 대학원생 수준의 기여를 할 수 있는지에 대한 논의.
- 현재는 대학원생보다 더 많은 노력이 필요하지만, 향후 몇 년 내에 그 비율이 1 이하로 떨어질 가능성이 있음.
# GN⁺의 정리
- Terence Tao는 OpenAI의 새로운 GPT-o1 모델을 테스트하여 수학적 문제 해결 능력을 평가함.
- GPT-o1은 이전 버전보다 개선되었으나 여전히 몇 가지 한계가 있음.
- 향후 몇 번의 개선으로 연구 수준의 작업에 유용할 가능성이 있음.
- 다양한 AI 도구가 연구 작업을 지원할 수 있는 생태계의 출현을 기대함.
- 현재는 대형, 범용 LLM이 주목받고 있으나, 특정 응용 프로그램에 맞춘 경량 오픈 소스 모델도 중요한 역할을 할 것으로 예상됨.
Hacker News 의견
-
GPT가 Lean(증명 보조 도구)에서 Python처럼 튜닝되면 연구 수준의 수학에 더 유용해질 것이라는 기대가 있음
- 운영 연구(OR) 관련 분야에서 ChatGPT 4o가 OR 문헌을 충분히 학습하여 유용한 혼합 정수 프로그래밍(MIP) 공식을 제공함
- 논리 문제를 제시하면 유용한 수학 공식을 생성해 주며, 약간의 수정만 필요함
- 논리가 실패할 수 있는 약한 공식을 경고해 주어 문제를 피하는 데 도움이 됨
- 과거에는 주말 내내 머리를 싸매야 했던 문제를 GPT가 해결해 주어 많은 시간을 절약해 줌
- MIP 최적화를 이해하고 문제를 작은 조각으로 나눌 수 있는 사람에게는 ChatGPT의 월 $20 구독료가 충분히 가치 있음
- 많은 사람들이 LLM을 잘 활용하지 못하거나 과도한 기대를 가지고 있어 불만을 가짐
- LLM의 강점을 알고 실수를 체크할 수 있는 사람들은 업무에서 큰 도움을 받음
-
2019년으로 돌아가서 Alexa와 상호작용하는 경험이 "평범하지만 완전히 무능하지 않은 대학원생을 조언하는 것과 비슷하다"는 글을 읽는다고 상상해 보라
- 5년 만에 엄청난 차이가 있음
-
o1 모델이 매우 놀라움
- Rust 코드 최적화 프로젝트에서 큰 속도 향상을 얻었고, 정확성을 검증함
- Jensen-Shannon 발산을 기반으로 한 새로운 통계적 의존성 측정을 구상하고 구현함
- 큰 벡터(예: 15,000 차원 이상)를 다룰 때 빠른 구현을 찾기 어려웠던 정규화 상호 정보량을 빠르게 구현함
- 처음에는 완벽한 Rust 코드를 제공하지 못했지만, 한 번의 시도로 모든 버그를 수정함
- GPT-4o는 Rust 타입 오류를 수정하는 데 여러 번 시도가 필요했음
- Claude3.5 sonnet은 Rust에 대해 매우 무능함
- 매우 도전적인 작업에서 큰 도움을 줌
- 성능 최적화와 상대적으로 버그 없는 코드뿐만 아니라 창의적인 문제 해결과 방대한 수학적, 알고리즘적 지식을 결합하여 목표를 이해하고 실현함
-
O1 모델에 대한 경험이 매우 다름
- 간단한 질문에도 혼란스러워함
-
LLM이 다양한 주제에서 "평범하지만 완전히 무능하지 않은 대학원생을 조언하는 것과 비슷하다"는 점이 새로움
- 경험이 많은 분야에서 작은 작업을 처리하는 데 큰 도움이 됨
- 문제를 작은 조각으로 나누면 solid한 작업을 수행함
- 개념적 이해가 필요하며, 프롬프트 기술이 중요함
- 복잡한 주제를 이해하는 데 LLM을 사용하고 전문가의 검증을 통해 개념을 확인함
-
인간도 "사고의 연쇄" 유형의 추론에서 이점을 얻을 수 있음
- 수학을 공부하는 모든 학생들이 관련 정의와 정보를 기억해야 한다면 능력이 크게 향상될 것임
- AI는 감정적 장벽이 없어 더 나은 추론을 할 수 있음
-
Terence Tao의 의견에 동의함
- LLM이 패턴 매칭을 통해 성능을 향상시킬 수 있지만, 진정한 일반화를 만드는 데는 효과적이지 않을 수 있음
- 새로운 문제나 복잡한 문제에서는 여전히 환각과 잘못된 추론이 발생할 수 있음
-
수학을 독립적인 취미로 다시 공부하는 것이 기대됨
- LLM을 통해 복잡한 분석 질문을 해결하는 데 큰 도움을 받음
- LLM이 개념적 연결을 빠르게 찾아주는 능력에 놀라움
- 특정 정의를 완화하여 비정향 매니폴드에서 복소수 분석이 가능한지 질문했을 때, LLM이 즉시 Cauchy-Riemann 방정식이 전역적으로 일관성이 없음을 알아냄
- LLM이 없었다면 이 질문에 답할 수 없었을 것임
-
Terence Tao의 의견이 놀라움
-
Daniel Litt는 o1-preview에 감명받았지만, 흥미로운 수학 문제를 해결하는 데는 아직 운이 좋지 않음
- 간단한 작업에서는 더 신뢰할 수 있으며, 비수학적 작업에서 시간 절약이 될 수 있음