Hacker News 의견
  • o1-preview 모델의 문제점

    • 존재하지 않는 라이브러리와 함수를 환각함
    • 웹에 잘 나타나지 않는 사실에 대해 잘못된 정보를 제공함
    • 모델이 생성한 정보의 사실 여부를 평가할 방법이 없음
  • OpenAI 연구원 Jason Wei의 인용

    • AIME와 GPQA에서 강력한 성과를 보였으나 사용자에게는 체감되지 않음
    • 더 어려운 프롬프트를 찾아야 한다는 의견에 대해 의문을 제기함
  • Rust 코드 리팩토링 시도

    • o1-mini는 오류 없는 코드를 제공하지 못함
    • o1-preview는 컴파일되고 대부분의 테스트를 통과하는 코드를 제공함
    • Rust 라이브러리에서 enum을 제거하고 U8 데이터 타입만 사용하도록 변경 시도
  • 두 가지 주요 요소

    • 좋은 chain-of-thought 프롬프트를 읽고 생성하도록 훈련된 LLM
    • 모델을 반복적으로 재프롬프트하는 런타임 코드
    • OpenAI가 이 차이를 명확히 설명하지 않음
  • 복잡한 프롬프트 평가의 어려움

    • 프롬프트 평가 과정이 숨겨져 있어 디버깅이 어려움
    • 사용자로서는 결과만 중요하고 과정은 중요하지 않음
  • o1의 품질과 비용 문제

    • 품질의 큰 향상은 없으나 비용과 지연 시간에 큰 부정적 영향이 있음
  • GPT-4o와 o1-preview의 비교

    • GPT-4o는 최적의 틱택토 전략을 제공하지 못함
    • o1-preview는 최적의 전략을 제공하나 비표준 그리드에서는 실패함
  • 기본적인 수학 문제 해결의 어려움

    • 세 숫자를 더하고 나누어 같은 결과를 얻는 문제 해결 시도
    • 현재 모델이 기본적인 학교 문제도 해결하기 어려움
  • 법률 질문 테스트

    • GPT-4o는 즉시 올바른 답변을 제공함
    • o1-preview는 잘못된 답변을 제공하고 여러 번의 후속 질문이 필요함
  • Markdown 콘텐츠 처리 문제

    • Markdown 콘텐츠에 기호 논리 표현과 증명 예제를 포함했을 때 서비스 약관 위반으로 간주됨