# LLM으로 추론하는 법 배우기

> Clean Markdown view of GeekNews topic #16736. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=16736](https://news.hada.io/topic?id=16736)
- GeekNews Markdown: [https://news.hada.io/topic/16736.md](https://news.hada.io/topic/16736.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-09-13T09:40:16+09:00
- Updated: 2024-09-13T09:40:16+09:00
- Original source: [openai.com](https://openai.com/index/learning-to-reason-with-llms/)
- Points: 3
- Comments: 1

## Topic Body

- 강화 학습으로 복잡한 추론을 수행하도록 훈련된 새로운 대형 언어 모델 OpenAI o1 발표  
- o1은 사용자에게 응답하기 전에 긴 내부 사고 체인(chain of thought)을 생성할 수 있음  
- o1은 경쟁 프로그래밍 문제(Codeforces)에서 89번째 백분위수, 미국 수학 올림피아드 예선(AIME)에서 미국 상위 500명 학생 중 한 명, 물리학, 생물학, 화학 문제(GPQA) 벤치마크에서 인간 박사 수준의 정확도를 능가  
- 현재 모델들처럼 쉽게 사용할 수 있도록 만드는 작업이 아직 진행 중이지만, 이 모델의 초기 버전인 OpenAI o1-preview를 ChatGPT와 신뢰할 수 있는 API 사용자에게 즉시 사용할 수 있도록 공개  
  
### 평가  
- GPT-4o보다 o1이 대부분의 추론 중심 작업에서 크게 우수한 성능을 보임  
  - 2024 AIME 시험에서 GPT-4o는 문제의 평균 12%(1.8/15)만 해결한 반면, o1은 단일 샘플로 평균 74%(11.1/15), 64개 샘플 간 합의로 83%(12.5/15), 1000개 샘플을 학습된 채점 함수로 재순위화하여 93%(13.9/15) 달성  
  - GPQA 다이아몬드에서 o1은 화학, 물리학, 생물학 전문 지식을 테스트하는 인간 전문가의 성능을 능가하여 이 벤치마크에서 처음으로 그렇게 한 모델이 됨  
  - o1은 시각 인식 기능을 활성화하면 MMMU에서 78.2%를 기록하여 인간 전문가와 경쟁할 수 있는 첫 번째 모델이 됨  
  - MMLU 하위 범주 57개 중 54개에서 GPT-4o보다 우수한 성능 보임  
  
### 사고의 연쇄(chain of thought)  
- 사람이 어려운 질문에 대답하기 전에 오랫동안 생각할 수 있는 것처럼, o1은 문제를 해결하려고 할 때 사고의 연쇄를 사용  
- 강화 학습을 통해 o1은 사고의 연쇄를 연마하고 사용하는 전략을 개선하는 법을 배움  
  - 실수를 인식하고 수정하는 법을 배움  
  - 까다로운 단계를 더 간단한 단계로 분해하는 법을 배움  
  - 현재 접근 방식이 작동하지 않을 때 다른 접근 방식을 시도하는 법을 배움  
  
### 코딩  
-  프로그래밍 기술을 더욱 향상시키도록 훈련하여 2024 국제 정보 올림피아드(IOI)에서 213점을 기록하고 49번째 백분위수에 랭크된 모델을 훈련시킴  
  - 이 모델은 인간 참가자와 동일한 조건으로 2024 IOI에 참가  
  - 6개의 도전적인 알고리즘 문제를 해결하는 데 10시간이 주어졌고 문제당 50번의 제출이 허용됨  
- 10,000개의 제출이 허용되면 모델 성능이 크게 향상됨  
  - 테스트 시간 선택 전략 없이도 362.14점을 달성하여 금메달 임계값을 초과  
- Codeforces에서 개최하는 경쟁 프로그래밍 대회를 시뮬레이션하여 이 모델의 코딩 실력을 입증  
  - GPT-4o는 ELO 등급 808을 달성하여 인간 경쟁자의 11번째 백분위수에 해당  
  - 이 모델은 GPT-4o와 o1을 훨씬 능가하여 ELO 등급 1807을 달성하고 경쟁자의 93%보다 우수한 성능을 보임  
  
### 안전성  
- 사고의 연쇄 추론은 정렬 및 안전을 위한 새로운 기회를 제공  
  - 모델 동작에 대한 정책을 추론 모델의 사고 연쇄에 통합하는 것이 인간의 가치관과 원칙을 견고하게 가르치는 효과적인 방법임을 발견  
  - 모델에 안전 규칙과 상황에 맞게 추론하는 방법을 가르침으로써 추론 능력이 모델 견고성에 직접적으로 도움이 된다는 증거를 발견  
- 모델이 합법적인 방식으로 생각하는 것을 관찰할 수 있고, 모델이 안전 규칙에 대해 추론하는 것이 분포 외 시나리오에 더 강력하기 때문에 사고의 연쇄를 사용하는 것이 안전과 정렬에 상당한 진전을 제공한다고 믿음  
- 배포 전에 안전 테스트 및 레드 팀 구성을 실시하여 개선 사항을 강조  
  - 사고의 연쇄 추론이 모든 평가에서 역량 향상에 기여한 것으로 나타남  
  
### 결론  
- o1은 AI 추론에서 최첨단 기술을 크게 발전시킴  
- 반복하면서 이 모델의 개선된 버전을 출시할 계획  
- o1과 그 후속 모델이 과학, 코딩, 수학 및 관련 분야에서 AI의 많은 새로운 사용 사례를 열어줄 것으로 기대  
- 사용자와 API 개발자가 o1이 일상 업무를 어떻게 개선할 수 있는지 발견하기를 기대  
  
### GN⁺의 의견  
- OpenAI o1은 복잡한 문제 해결과 추론 능력이 뛰어난 모델로, 인간 수준을 넘어서는 성능을 보여주고 있음. 특히 수학, 과학, 프로그래밍 영역에서 전문가 수준의 실력을 보유하고 있어 관련 분야의 연구나 응용에 큰 도움이 될 것으로 보임  
- 사고의 연쇄(Chain of Thought) 방식을 사용하여 모델의 사고 과정을 관찰하고 이해할 수 있게 한 점이 인상적임. 이는 모델의 동작을 이해하고 제어하는 데 큰 도움이 될 것임. 다만 생성된 사고 과정을 사용자에게 그대로 노출하지 않기로 한 점은 논란의 여지가 있음   
- 모델의 안전성 강화를 위해 정책 규칙을 사고 과정에 통합한 것도 주목할 만한 부분임. 하지만 아직 완벽하지는 않아 보이므로, 지속적인 모니터링과 개선이 필요해 보임  
- o1은 매우 강력한 모델이지만, 완전무결한 것은 아님. 편향성이나 윤리적 이슈 등 AI 모델 전반에 걸친 한계점이 여전히 존재함. 기술적인 발전과 함께 이러한 한계를 극복하기 위한 지속적인 노력이 필요할 것임

## Comments



### Comment 28880

- Author: neo
- Created: 2024-09-13T09:40:17+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=41523070) 
- **첫 번째 의견**
  - 문서에서 얻은 실용적인 정보 요약
    - 접근하려면 5단계 등급에 있어야 하며, 총 $1,000 지불 및 첫 성공적인 결제 후 30일 이상 경과해야 함
    - 가격은 입력 토큰 100만 개당 $15, 출력 토큰 100만 개당 $60
    - 컨텍스트 윈도우는 128k 토큰, 최대 출력은 32,768 토큰
    - 최대 출력 토큰이 두 배인 미니 버전도 있으며, 가격은 입력 토큰 100만 개당 $3, 출력 토큰 100만 개당 $12
    - 블로그 포스트에서 언급된 전문 코딩 버전은 사용 불가
    - 숨겨진 chain of thought reasoning이 유료 출력 토큰으로 청구되는지 불확실함

- **두 번째 의견**
  - 첫 두 정확도 그래프에 구체적인 라벨이 없어 회의적임
    - 80% 정확도 테스트 결과가 얼마나 걸렸는지 알 수 없음
    - 기사 초반의 그래프와 코딩 섹션의 10시간 문제 해결이 연결되는지 불분명함
    - 데이터가 많지만 첫 두 그래프의 데이터가 불투명해 신뢰가 가지 않음

- **세 번째 의견**
  - "안전성" 예시가 터무니없음
    - OpenAI가 LLM이 strychnine 합성에 대한 자세한 지침을 제공하는 것은 용납할 수 없다고 하면서도, 이전에 생성된 "안전하지 않은" 지침을 게시함
    - LLM이 지식을 공유하는 것에 대한 과도한 안전성 집착

- **네 번째 의견**
  - 모델 성능은 chain of thought에 의해 좌우되지만, 경쟁 우위 등의 이유로 사용자에게 제공되지 않음
    - GPT4 출시 이후 GPT4 출력을 기반으로 비OpenAI 모델을 미세 조정하는 것이 일반적이 됨
    - OpenAI가 chain of thought 응답을 제공하지 않는 이유는 결과 재현을 어렵게 하기 위함

- **다섯 번째 의견**
  - GPT-4 모델을 사용해 주방 팬의 바이너리 블루투스 프로토콜을 역설계하는 데 도움을 받음
    - o1-preview와 o1-mini 모델이 패턴을 이해하고 디코딩함
    - GPT4o 모델은 이전과 동일한 결과를 제공함
    - 놀라운 진전

- **여섯 번째 의견**
  - chain-of-thought prompting과 강화 학습을 통한 chain of thought 전략 학습의 차이를 이해하지 못하는 댓글이 많음
    - 강화 학습을 통해 o1이 chain of thought를 연마하고 전략을 개선함

- **일곱 번째 의견**
  - Cipher 예제의 Chain of Thought를 읽는 것이 흥미로움
    - 논리를 천천히 작성하고 그 위에 추론하는 것이 논리적 사고를 향상시킴

- **여덟 번째 의견**
  - 네덜란드 TV 쇼의 자막 문제를 이해하는 데 o1이 잘 작동함
    - 자막의 움라우트 u가 1/4로 표시되는 이유를 물었을 때, 인코딩 문제를 정확히 설명함

- **아홉 번째 의견**
  - ROT 암호문을 해독하는 데 있어 실망스러운 결과를 얻음
    - 많은 단계가 잘못되었거나 따르지 않음
    - chain of thought 엔진에서 유용성을 얻는 패턴을 찾기 어려움

- **열 번째 의견**
  - 기술적 성과는 크지만, LLM이 여전히 환각에 취약해 도구의 유용성에 대해 걱정됨
    - 전문가가 아닌 사용자가 잘못된 답변에 의존할 위험이 있음
    - 예를 들어, 데이터베이스 조인 순서 최적화 알고리즘을 평가할 때 잘못된 정보를 제공함
