▲GN⁺ 2024-09-14 | parent | ★ favorite | on: OpenAI의 o1, chain-of-thought 모델에 대한 노트(simonwillison.net)Hacker News 의견 o1-preview 모델의 문제점 존재하지 않는 라이브러리와 함수를 환각함 웹에 잘 나타나지 않는 사실에 대해 잘못된 정보를 제공함 모델이 생성한 정보의 사실 여부를 평가할 방법이 없음 OpenAI 연구원 Jason Wei의 인용 AIME와 GPQA에서 강력한 성과를 보였으나 사용자에게는 체감되지 않음 더 어려운 프롬프트를 찾아야 한다는 의견에 대해 의문을 제기함 Rust 코드 리팩토링 시도 o1-mini는 오류 없는 코드를 제공하지 못함 o1-preview는 컴파일되고 대부분의 테스트를 통과하는 코드를 제공함 Rust 라이브러리에서 enum을 제거하고 U8 데이터 타입만 사용하도록 변경 시도 두 가지 주요 요소 좋은 chain-of-thought 프롬프트를 읽고 생성하도록 훈련된 LLM 모델을 반복적으로 재프롬프트하는 런타임 코드 OpenAI가 이 차이를 명확히 설명하지 않음 복잡한 프롬프트 평가의 어려움 프롬프트 평가 과정이 숨겨져 있어 디버깅이 어려움 사용자로서는 결과만 중요하고 과정은 중요하지 않음 o1의 품질과 비용 문제 품질의 큰 향상은 없으나 비용과 지연 시간에 큰 부정적 영향이 있음 GPT-4o와 o1-preview의 비교 GPT-4o는 최적의 틱택토 전략을 제공하지 못함 o1-preview는 최적의 전략을 제공하나 비표준 그리드에서는 실패함 기본적인 수학 문제 해결의 어려움 세 숫자를 더하고 나누어 같은 결과를 얻는 문제 해결 시도 현재 모델이 기본적인 학교 문제도 해결하기 어려움 법률 질문 테스트 GPT-4o는 즉시 올바른 답변을 제공함 o1-preview는 잘못된 답변을 제공하고 여러 번의 후속 질문이 필요함 Markdown 콘텐츠 처리 문제 Markdown 콘텐츠에 기호 논리 표현과 증명 예제를 포함했을 때 서비스 약관 위반으로 간주됨
Hacker News 의견
o1-preview 모델의 문제점
OpenAI 연구원 Jason Wei의 인용
Rust 코드 리팩토링 시도
두 가지 주요 요소
복잡한 프롬프트 평가의 어려움
o1의 품질과 비용 문제
GPT-4o와 o1-preview의 비교
기본적인 수학 문제 해결의 어려움
법률 질문 테스트
Markdown 콘텐츠 처리 문제