3P by neo 2달전 | favorite | 댓글 1개
  • 강화 학습으로 복잡한 추론을 수행하도록 훈련된 새로운 대형 언어 모델 OpenAI o1 발표
  • o1은 사용자에게 응답하기 전에 긴 내부 사고 체인(chain of thought)을 생성할 수 있음
  • o1은 경쟁 프로그래밍 문제(Codeforces)에서 89번째 백분위수, 미국 수학 올림피아드 예선(AIME)에서 미국 상위 500명 학생 중 한 명, 물리학, 생물학, 화학 문제(GPQA) 벤치마크에서 인간 박사 수준의 정확도를 능가
  • 현재 모델들처럼 쉽게 사용할 수 있도록 만드는 작업이 아직 진행 중이지만, 이 모델의 초기 버전인 OpenAI o1-preview를 ChatGPT와 신뢰할 수 있는 API 사용자에게 즉시 사용할 수 있도록 공개

평가

  • GPT-4o보다 o1이 대부분의 추론 중심 작업에서 크게 우수한 성능을 보임
    • 2024 AIME 시험에서 GPT-4o는 문제의 평균 12%(1.8/15)만 해결한 반면, o1은 단일 샘플로 평균 74%(11.1/15), 64개 샘플 간 합의로 83%(12.5/15), 1000개 샘플을 학습된 채점 함수로 재순위화하여 93%(13.9/15) 달성
    • GPQA 다이아몬드에서 o1은 화학, 물리학, 생물학 전문 지식을 테스트하는 인간 전문가의 성능을 능가하여 이 벤치마크에서 처음으로 그렇게 한 모델이 됨
    • o1은 시각 인식 기능을 활성화하면 MMMU에서 78.2%를 기록하여 인간 전문가와 경쟁할 수 있는 첫 번째 모델이 됨
    • MMLU 하위 범주 57개 중 54개에서 GPT-4o보다 우수한 성능 보임

사고의 연쇄(chain of thought)

  • 사람이 어려운 질문에 대답하기 전에 오랫동안 생각할 수 있는 것처럼, o1은 문제를 해결하려고 할 때 사고의 연쇄를 사용
  • 강화 학습을 통해 o1은 사고의 연쇄를 연마하고 사용하는 전략을 개선하는 법을 배움
    • 실수를 인식하고 수정하는 법을 배움
    • 까다로운 단계를 더 간단한 단계로 분해하는 법을 배움
    • 현재 접근 방식이 작동하지 않을 때 다른 접근 방식을 시도하는 법을 배움

코딩

  • 프로그래밍 기술을 더욱 향상시키도록 훈련하여 2024 국제 정보 올림피아드(IOI)에서 213점을 기록하고 49번째 백분위수에 랭크된 모델을 훈련시킴
  • 이 모델은 인간 참가자와 동일한 조건으로 2024 IOI에 참가
  • 6개의 도전적인 알고리즘 문제를 해결하는 데 10시간이 주어졌고 문제당 50번의 제출이 허용됨
  • 10,000개의 제출이 허용되면 모델 성능이 크게 향상됨
    • 테스트 시간 선택 전략 없이도 362.14점을 달성하여 금메달 임계값을 초과
  • Codeforces에서 개최하는 경쟁 프로그래밍 대회를 시뮬레이션하여 이 모델의 코딩 실력을 입증
    • GPT-4o는 ELO 등급 808을 달성하여 인간 경쟁자의 11번째 백분위수에 해당
    • 이 모델은 GPT-4o와 o1을 훨씬 능가하여 ELO 등급 1807을 달성하고 경쟁자의 93%보다 우수한 성능을 보임

안전성

  • 사고의 연쇄 추론은 정렬 및 안전을 위한 새로운 기회를 제공
    • 모델 동작에 대한 정책을 추론 모델의 사고 연쇄에 통합하는 것이 인간의 가치관과 원칙을 견고하게 가르치는 효과적인 방법임을 발견
    • 모델에 안전 규칙과 상황에 맞게 추론하는 방법을 가르침으로써 추론 능력이 모델 견고성에 직접적으로 도움이 된다는 증거를 발견
  • 모델이 합법적인 방식으로 생각하는 것을 관찰할 수 있고, 모델이 안전 규칙에 대해 추론하는 것이 분포 외 시나리오에 더 강력하기 때문에 사고의 연쇄를 사용하는 것이 안전과 정렬에 상당한 진전을 제공한다고 믿음
  • 배포 전에 안전 테스트 및 레드 팀 구성을 실시하여 개선 사항을 강조
    • 사고의 연쇄 추론이 모든 평가에서 역량 향상에 기여한 것으로 나타남

결론

  • o1은 AI 추론에서 최첨단 기술을 크게 발전시킴
  • 반복하면서 이 모델의 개선된 버전을 출시할 계획
  • o1과 그 후속 모델이 과학, 코딩, 수학 및 관련 분야에서 AI의 많은 새로운 사용 사례를 열어줄 것으로 기대
  • 사용자와 API 개발자가 o1이 일상 업무를 어떻게 개선할 수 있는지 발견하기를 기대

GN⁺의 의견

  • OpenAI o1은 복잡한 문제 해결과 추론 능력이 뛰어난 모델로, 인간 수준을 넘어서는 성능을 보여주고 있음. 특히 수학, 과학, 프로그래밍 영역에서 전문가 수준의 실력을 보유하고 있어 관련 분야의 연구나 응용에 큰 도움이 될 것으로 보임
  • 사고의 연쇄(Chain of Thought) 방식을 사용하여 모델의 사고 과정을 관찰하고 이해할 수 있게 한 점이 인상적임. 이는 모델의 동작을 이해하고 제어하는 데 큰 도움이 될 것임. 다만 생성된 사고 과정을 사용자에게 그대로 노출하지 않기로 한 점은 논란의 여지가 있음
  • 모델의 안전성 강화를 위해 정책 규칙을 사고 과정에 통합한 것도 주목할 만한 부분임. 하지만 아직 완벽하지는 않아 보이므로, 지속적인 모니터링과 개선이 필요해 보임
  • o1은 매우 강력한 모델이지만, 완전무결한 것은 아님. 편향성이나 윤리적 이슈 등 AI 모델 전반에 걸친 한계점이 여전히 존재함. 기술적인 발전과 함께 이러한 한계를 극복하기 위한 지속적인 노력이 필요할 것임
Hacker News 의견
  • 첫 번째 의견

    • 문서에서 얻은 실용적인 정보 요약
      • 접근하려면 5단계 등급에 있어야 하며, 총 $1,000 지불 및 첫 성공적인 결제 후 30일 이상 경과해야 함
      • 가격은 입력 토큰 100만 개당 $15, 출력 토큰 100만 개당 $60
      • 컨텍스트 윈도우는 128k 토큰, 최대 출력은 32,768 토큰
      • 최대 출력 토큰이 두 배인 미니 버전도 있으며, 가격은 입력 토큰 100만 개당 $3, 출력 토큰 100만 개당 $12
      • 블로그 포스트에서 언급된 전문 코딩 버전은 사용 불가
      • 숨겨진 chain of thought reasoning이 유료 출력 토큰으로 청구되는지 불확실함
  • 두 번째 의견

    • 첫 두 정확도 그래프에 구체적인 라벨이 없어 회의적임
      • 80% 정확도 테스트 결과가 얼마나 걸렸는지 알 수 없음
      • 기사 초반의 그래프와 코딩 섹션의 10시간 문제 해결이 연결되는지 불분명함
      • 데이터가 많지만 첫 두 그래프의 데이터가 불투명해 신뢰가 가지 않음
  • 세 번째 의견

    • "안전성" 예시가 터무니없음
      • OpenAI가 LLM이 strychnine 합성에 대한 자세한 지침을 제공하는 것은 용납할 수 없다고 하면서도, 이전에 생성된 "안전하지 않은" 지침을 게시함
      • LLM이 지식을 공유하는 것에 대한 과도한 안전성 집착
  • 네 번째 의견

    • 모델 성능은 chain of thought에 의해 좌우되지만, 경쟁 우위 등의 이유로 사용자에게 제공되지 않음
      • GPT4 출시 이후 GPT4 출력을 기반으로 비OpenAI 모델을 미세 조정하는 것이 일반적이 됨
      • OpenAI가 chain of thought 응답을 제공하지 않는 이유는 결과 재현을 어렵게 하기 위함
  • 다섯 번째 의견

    • GPT-4 모델을 사용해 주방 팬의 바이너리 블루투스 프로토콜을 역설계하는 데 도움을 받음
      • o1-preview와 o1-mini 모델이 패턴을 이해하고 디코딩함
      • GPT4o 모델은 이전과 동일한 결과를 제공함
      • 놀라운 진전
  • 여섯 번째 의견

    • chain-of-thought prompting과 강화 학습을 통한 chain of thought 전략 학습의 차이를 이해하지 못하는 댓글이 많음
      • 강화 학습을 통해 o1이 chain of thought를 연마하고 전략을 개선함
  • 일곱 번째 의견

    • Cipher 예제의 Chain of Thought를 읽는 것이 흥미로움
      • 논리를 천천히 작성하고 그 위에 추론하는 것이 논리적 사고를 향상시킴
  • 여덟 번째 의견

    • 네덜란드 TV 쇼의 자막 문제를 이해하는 데 o1이 잘 작동함
      • 자막의 움라우트 u가 1/4로 표시되는 이유를 물었을 때, 인코딩 문제를 정확히 설명함
  • 아홉 번째 의견

    • ROT 암호문을 해독하는 데 있어 실망스러운 결과를 얻음
      • 많은 단계가 잘못되었거나 따르지 않음
      • chain of thought 엔진에서 유용성을 얻는 패턴을 찾기 어려움
  • 열 번째 의견

    • 기술적 성과는 크지만, LLM이 여전히 환각에 취약해 도구의 유용성에 대해 걱정됨
      • 전문가가 아닌 사용자가 잘못된 답변에 의존할 위험이 있음
      • 예를 들어, 데이터베이스 조인 순서 최적화 알고리즘을 평가할 때 잘못된 정보를 제공함