LLM으로 추론하는 법 배우기

(openai.com)

3P by GN⁺ 2024-09-13 | ★ favorite | 댓글 1개

강화 학습으로 복잡한 추론을 수행하도록 훈련된 새로운 대형 언어 모델 OpenAI o1 발표
o1은 사용자에게 응답하기 전에 긴 내부 사고 체인(chain of thought)을 생성할 수 있음
o1은 경쟁 프로그래밍 문제(Codeforces)에서 89번째 백분위수, 미국 수학 올림피아드 예선(AIME)에서 미국 상위 500명 학생 중 한 명, 물리학, 생물학, 화학 문제(GPQA) 벤치마크에서 인간 박사 수준의 정확도를 능가
현재 모델들처럼 쉽게 사용할 수 있도록 만드는 작업이 아직 진행 중이지만, 이 모델의 초기 버전인 OpenAI o1-preview를 ChatGPT와 신뢰할 수 있는 API 사용자에게 즉시 사용할 수 있도록 공개

평가

GPT-4o보다 o1이 대부분의 추론 중심 작업에서 크게 우수한 성능을 보임
- 2024 AIME 시험에서 GPT-4o는 문제의 평균 12%(1.8/15)만 해결한 반면, o1은 단일 샘플로 평균 74%(11.1/15), 64개 샘플 간 합의로 83%(12.5/15), 1000개 샘플을 학습된 채점 함수로 재순위화하여 93%(13.9/15) 달성
- GPQA 다이아몬드에서 o1은 화학, 물리학, 생물학 전문 지식을 테스트하는 인간 전문가의 성능을 능가하여 이 벤치마크에서 처음으로 그렇게 한 모델이 됨
- o1은 시각 인식 기능을 활성화하면 MMMU에서 78.2%를 기록하여 인간 전문가와 경쟁할 수 있는 첫 번째 모델이 됨
- MMLU 하위 범주 57개 중 54개에서 GPT-4o보다 우수한 성능 보임

사고의 연쇄(chain of thought)

사람이 어려운 질문에 대답하기 전에 오랫동안 생각할 수 있는 것처럼, o1은 문제를 해결하려고 할 때 사고의 연쇄를 사용
강화 학습을 통해 o1은 사고의 연쇄를 연마하고 사용하는 전략을 개선하는 법을 배움
- 실수를 인식하고 수정하는 법을 배움
- 까다로운 단계를 더 간단한 단계로 분해하는 법을 배움
- 현재 접근 방식이 작동하지 않을 때 다른 접근 방식을 시도하는 법을 배움

코딩

프로그래밍 기술을 더욱 향상시키도록 훈련하여 2024 국제 정보 올림피아드(IOI)에서 213점을 기록하고 49번째 백분위수에 랭크된 모델을 훈련시킴
이 모델은 인간 참가자와 동일한 조건으로 2024 IOI에 참가
6개의 도전적인 알고리즘 문제를 해결하는 데 10시간이 주어졌고 문제당 50번의 제출이 허용됨
10,000개의 제출이 허용되면 모델 성능이 크게 향상됨
- 테스트 시간 선택 전략 없이도 362.14점을 달성하여 금메달 임계값을 초과
Codeforces에서 개최하는 경쟁 프로그래밍 대회를 시뮬레이션하여 이 모델의 코딩 실력을 입증
- GPT-4o는 ELO 등급 808을 달성하여 인간 경쟁자의 11번째 백분위수에 해당
- 이 모델은 GPT-4o와 o1을 훨씬 능가하여 ELO 등급 1807을 달성하고 경쟁자의 93%보다 우수한 성능을 보임

안전성

사고의 연쇄 추론은 정렬 및 안전을 위한 새로운 기회를 제공
- 모델 동작에 대한 정책을 추론 모델의 사고 연쇄에 통합하는 것이 인간의 가치관과 원칙을 견고하게 가르치는 효과적인 방법임을 발견
- 모델에 안전 규칙과 상황에 맞게 추론하는 방법을 가르침으로써 추론 능력이 모델 견고성에 직접적으로 도움이 된다는 증거를 발견
모델이 합법적인 방식으로 생각하는 것을 관찰할 수 있고, 모델이 안전 규칙에 대해 추론하는 것이 분포 외 시나리오에 더 강력하기 때문에 사고의 연쇄를 사용하는 것이 안전과 정렬에 상당한 진전을 제공한다고 믿음
배포 전에 안전 테스트 및 레드 팀 구성을 실시하여 개선 사항을 강조
- 사고의 연쇄 추론이 모든 평가에서 역량 향상에 기여한 것으로 나타남

결론

o1은 AI 추론에서 최첨단 기술을 크게 발전시킴
반복하면서 이 모델의 개선된 버전을 출시할 계획
o1과 그 후속 모델이 과학, 코딩, 수학 및 관련 분야에서 AI의 많은 새로운 사용 사례를 열어줄 것으로 기대
사용자와 API 개발자가 o1이 일상 업무를 어떻게 개선할 수 있는지 발견하기를 기대

GN⁺의 의견

OpenAI o1은 복잡한 문제 해결과 추론 능력이 뛰어난 모델로, 인간 수준을 넘어서는 성능을 보여주고 있음. 특히 수학, 과학, 프로그래밍 영역에서 전문가 수준의 실력을 보유하고 있어 관련 분야의 연구나 응용에 큰 도움이 될 것으로 보임
사고의 연쇄(Chain of Thought) 방식을 사용하여 모델의 사고 과정을 관찰하고 이해할 수 있게 한 점이 인상적임. 이는 모델의 동작을 이해하고 제어하는 데 큰 도움이 될 것임. 다만 생성된 사고 과정을 사용자에게 그대로 노출하지 않기로 한 점은 논란의 여지가 있음
모델의 안전성 강화를 위해 정책 규칙을 사고 과정에 통합한 것도 주목할 만한 부분임. 하지만 아직 완벽하지는 않아 보이므로, 지속적인 모니터링과 개선이 필요해 보임
o1은 매우 강력한 모델이지만, 완전무결한 것은 아님. 편향성이나 윤리적 이슈 등 AI 모델 전반에 걸친 한계점이 여전히 존재함. 기술적인 발전과 함께 이러한 한계를 극복하기 위한 지속적인 노력이 필요할 것임

▲

GN⁺ 2024-09-13 [-]

Hacker News 의견

첫 번째 의견
- 문서에서 얻은 실용적인 정보 요약
  - 접근하려면 5단계 등급에 있어야 하며, 총 $1,000 지불 및 첫 성공적인 결제 후 30일 이상 경과해야 함
  - 가격은 입력 토큰 100만 개당 $15, 출력 토큰 100만 개당 $60
  - 컨텍스트 윈도우는 128k 토큰, 최대 출력은 32,768 토큰
  - 최대 출력 토큰이 두 배인 미니 버전도 있으며, 가격은 입력 토큰 100만 개당 $3, 출력 토큰 100만 개당 $12
  - 블로그 포스트에서 언급된 전문 코딩 버전은 사용 불가
  - 숨겨진 chain of thought reasoning이 유료 출력 토큰으로 청구되는지 불확실함
두 번째 의견
- 첫 두 정확도 그래프에 구체적인 라벨이 없어 회의적임
  - 80% 정확도 테스트 결과가 얼마나 걸렸는지 알 수 없음
  - 기사 초반의 그래프와 코딩 섹션의 10시간 문제 해결이 연결되는지 불분명함
  - 데이터가 많지만 첫 두 그래프의 데이터가 불투명해 신뢰가 가지 않음
세 번째 의견
- "안전성" 예시가 터무니없음
  - OpenAI가 LLM이 strychnine 합성에 대한 자세한 지침을 제공하는 것은 용납할 수 없다고 하면서도, 이전에 생성된 "안전하지 않은" 지침을 게시함
  - LLM이 지식을 공유하는 것에 대한 과도한 안전성 집착
네 번째 의견
- 모델 성능은 chain of thought에 의해 좌우되지만, 경쟁 우위 등의 이유로 사용자에게 제공되지 않음
  - GPT4 출시 이후 GPT4 출력을 기반으로 비OpenAI 모델을 미세 조정하는 것이 일반적이 됨
  - OpenAI가 chain of thought 응답을 제공하지 않는 이유는 결과 재현을 어렵게 하기 위함
다섯 번째 의견
- GPT-4 모델을 사용해 주방 팬의 바이너리 블루투스 프로토콜을 역설계하는 데 도움을 받음
  - o1-preview와 o1-mini 모델이 패턴을 이해하고 디코딩함
  - GPT4o 모델은 이전과 동일한 결과를 제공함
  - 놀라운 진전
여섯 번째 의견
- chain-of-thought prompting과 강화 학습을 통한 chain of thought 전략 학습의 차이를 이해하지 못하는 댓글이 많음
  - 강화 학습을 통해 o1이 chain of thought를 연마하고 전략을 개선함
일곱 번째 의견
- Cipher 예제의 Chain of Thought를 읽는 것이 흥미로움
  - 논리를 천천히 작성하고 그 위에 추론하는 것이 논리적 사고를 향상시킴
여덟 번째 의견
- 네덜란드 TV 쇼의 자막 문제를 이해하는 데 o1이 잘 작동함
  - 자막의 움라우트 u가 1/4로 표시되는 이유를 물었을 때, 인코딩 문제를 정확히 설명함
아홉 번째 의견
- ROT 암호문을 해독하는 데 있어 실망스러운 결과를 얻음
  - 많은 단계가 잘못되었거나 따르지 않음
  - chain of thought 엔진에서 유용성을 얻는 패턴을 찾기 어려움
열 번째 의견
- 기술적 성과는 크지만, LLM이 여전히 환각에 취약해 도구의 유용성에 대해 걱정됨
  - 전문가가 아닌 사용자가 잘못된 답변에 의존할 위험이 있음
  - 예를 들어, 데이터베이스 조인 순서 최적화 알고리즘을 평가할 때 잘못된 정보를 제공함

답변달기