# 테렌스 타오의 O1 분석

> Clean Markdown view of GeekNews topic #16773. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=16773](https://news.hada.io/topic?id=16773)
- GeekNews Markdown: [https://news.hada.io/topic/16773.md](https://news.hada.io/topic/16773.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-09-15T09:42:24+09:00
- Updated: 2024-09-15T09:42:24+09:00
- Original source: [mathstodon.xyz](https://mathstodon.xyz/@tao/113132502735585408)
- Points: 2
- Comments: 1

## Topic Body

##### mathstodon.xyz 소개

- **mathstodon.xyz**는 Mastodon 기반의 탈중앙화된 소셜 네트워크의 일부로, 수학 관련 사용자들을 위한 인스턴스임.
- 웹 인터페이스에서 LaTeX 렌더링을 지원함.
- **관리자**: Christian Lawson-Perfect (@christianp)
- **서버 통계**: 3K 활성 사용자

##### Terence Tao의 GPT-o1 실험

- **GPT-o1**: OpenAI의 새로운 GPT 버전으로, LLM 실행 전에 초기 추론 단계를 수행함.
- **실험 1**: 모호한 수학적 질문에 대한 답변에서 Cramer's theorem을 정확히 식별하고 만족스러운 답변을 제공함.
  - 이전 버전에서는 관련 개념을 언급했지만 세부 사항이 잘못되었음.
- **실험 2**: 복잡한 해석학 문제에 대한 도전에서 많은 힌트와 유도로 올바른 해결책을 도출했으나, 주요 개념적 아이디어를 스스로 생성하지 못하고 몇 가지 실수를 함.
  - 이전 모델보다 개선되었으나 여전히 부족함.
  - 향후 몇 번의 개선으로 연구 수준의 작업에 유용할 가능성이 있음.
- **실험 3**: Lean에서 결과를 형식화하는 작업에서 문제를 잘 이해하고 초기 분해를 잘 수행했으나, 최신 Lean 정보 부족으로 코드에 여러 실수가 있었음.
  - Lean과 Mathlib에 특화된 모델이 통합된 IDE에서 매우 유용할 수 있음.

##### 추가 논의

- **AI 도구의 발전**: 다양한 연구 작업을 처리할 수 있는 AI 도구 생태계의 출현을 기대함.
  - 현재는 대형, 범용 LLM이 주목받고 있으나, 특정 응용 프로그램에 맞춘 경량 오픈 소스 모델도 중요한 역할을 할 것으로 예상됨.
- **AI와 대학원생 비교**: AI 도구가 대학원생 수준의 기여를 할 수 있는지에 대한 논의.
  - 현재는 대학원생보다 더 많은 노력이 필요하지만, 향후 몇 년 내에 그 비율이 1 이하로 떨어질 가능성이 있음.

##### # GN⁺의 정리

- Terence Tao는 OpenAI의 새로운 GPT-o1 모델을 테스트하여 수학적 문제 해결 능력을 평가함.
- GPT-o1은 이전 버전보다 개선되었으나 여전히 몇 가지 한계가 있음.
- 향후 몇 번의 개선으로 연구 수준의 작업에 유용할 가능성이 있음.
- 다양한 AI 도구가 연구 작업을 지원할 수 있는 생태계의 출현을 기대함.
- 현재는 대형, 범용 LLM이 주목받고 있으나, 특정 응용 프로그램에 맞춘 경량 오픈 소스 모델도 중요한 역할을 할 것으로 예상됨.

## Comments



### Comment 28923

- Author: neo
- Created: 2024-09-15T09:42:24+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=41540902) 
- GPT가 Lean(증명 보조 도구)에서 Python처럼 튜닝되면 연구 수준의 수학에 더 유용해질 것이라는 기대가 있음
  - 운영 연구(OR) 관련 분야에서 ChatGPT 4o가 OR 문헌을 충분히 학습하여 유용한 혼합 정수 프로그래밍(MIP) 공식을 제공함
  - 논리 문제를 제시하면 유용한 수학 공식을 생성해 주며, 약간의 수정만 필요함
  - 논리가 실패할 수 있는 약한 공식을 경고해 주어 문제를 피하는 데 도움이 됨
  - 과거에는 주말 내내 머리를 싸매야 했던 문제를 GPT가 해결해 주어 많은 시간을 절약해 줌
  - MIP 최적화를 이해하고 문제를 작은 조각으로 나눌 수 있는 사람에게는 ChatGPT의 월 $20 구독료가 충분히 가치 있음
  - 많은 사람들이 LLM을 잘 활용하지 못하거나 과도한 기대를 가지고 있어 불만을 가짐
  - LLM의 강점을 알고 실수를 체크할 수 있는 사람들은 업무에서 큰 도움을 받음

- 2019년으로 돌아가서 Alexa와 상호작용하는 경험이 "평범하지만 완전히 무능하지 않은 대학원생을 조언하는 것과 비슷하다"는 글을 읽는다고 상상해 보라
  - 5년 만에 엄청난 차이가 있음

- o1 모델이 매우 놀라움
  - Rust 코드 최적화 프로젝트에서 큰 속도 향상을 얻었고, 정확성을 검증함
  - Jensen-Shannon 발산을 기반으로 한 새로운 통계적 의존성 측정을 구상하고 구현함
  - 큰 벡터(예: 15,000 차원 이상)를 다룰 때 빠른 구현을 찾기 어려웠던 정규화 상호 정보량을 빠르게 구현함
  - 처음에는 완벽한 Rust 코드를 제공하지 못했지만, 한 번의 시도로 모든 버그를 수정함
  - GPT-4o는 Rust 타입 오류를 수정하는 데 여러 번 시도가 필요했음
  - Claude3.5 sonnet은 Rust에 대해 매우 무능함
  - 매우 도전적인 작업에서 큰 도움을 줌
  - 성능 최적화와 상대적으로 버그 없는 코드뿐만 아니라 창의적인 문제 해결과 방대한 수학적, 알고리즘적 지식을 결합하여 목표를 이해하고 실현함

- O1 모델에 대한 경험이 매우 다름
  - 간단한 질문에도 혼란스러워함

- LLM이 다양한 주제에서 "평범하지만 완전히 무능하지 않은 대학원생을 조언하는 것과 비슷하다"는 점이 새로움
  - 경험이 많은 분야에서 작은 작업을 처리하는 데 큰 도움이 됨
  - 문제를 작은 조각으로 나누면 solid한 작업을 수행함
  - 개념적 이해가 필요하며, 프롬프트 기술이 중요함
  - 복잡한 주제를 이해하는 데 LLM을 사용하고 전문가의 검증을 통해 개념을 확인함

- 인간도 "사고의 연쇄" 유형의 추론에서 이점을 얻을 수 있음
  - 수학을 공부하는 모든 학생들이 관련 정의와 정보를 기억해야 한다면 능력이 크게 향상될 것임
  - AI는 감정적 장벽이 없어 더 나은 추론을 할 수 있음

- Terence Tao의 의견에 동의함
  - LLM이 패턴 매칭을 통해 성능을 향상시킬 수 있지만, 진정한 일반화를 만드는 데는 효과적이지 않을 수 있음
  - 새로운 문제나 복잡한 문제에서는 여전히 환각과 잘못된 추론이 발생할 수 있음

- 수학을 독립적인 취미로 다시 공부하는 것이 기대됨
  - LLM을 통해 복잡한 분석 질문을 해결하는 데 큰 도움을 받음
  - LLM이 개념적 연결을 빠르게 찾아주는 능력에 놀라움
  - 특정 정의를 완화하여 비정향 매니폴드에서 복소수 분석이 가능한지 질문했을 때, LLM이 즉시 Cauchy-Riemann 방정식이 전역적으로 일관성이 없음을 알아냄
  - LLM이 없었다면 이 질문에 답할 수 없었을 것임

- Terence Tao의 의견이 놀라움

- Daniel Litt는 o1-preview에 감명받았지만, 흥미로운 수학 문제를 해결하는 데는 아직 운이 좋지 않음
  - 간단한 작업에서는 더 신뢰할 수 있으며, 비수학적 작업에서 시간 절약이 될 수 있음
