OpenAI의 o1, chain-of-thought 모

▲

GN⁺ 2024-09-14 | parent | ★ favorite | on: OpenAI의 o1, chain-of-thought 모델에 대한 노트(simonwillison.net)

Hacker News 의견

o1-preview 모델의 문제점
- 존재하지 않는 라이브러리와 함수를 환각함
- 웹에 잘 나타나지 않는 사실에 대해 잘못된 정보를 제공함
- 모델이 생성한 정보의 사실 여부를 평가할 방법이 없음
OpenAI 연구원 Jason Wei의 인용
- AIME와 GPQA에서 강력한 성과를 보였으나 사용자에게는 체감되지 않음
- 더 어려운 프롬프트를 찾아야 한다는 의견에 대해 의문을 제기함
Rust 코드 리팩토링 시도
- o1-mini는 오류 없는 코드를 제공하지 못함
- o1-preview는 컴파일되고 대부분의 테스트를 통과하는 코드를 제공함
- Rust 라이브러리에서 enum을 제거하고 U8 데이터 타입만 사용하도록 변경 시도
두 가지 주요 요소
- 좋은 chain-of-thought 프롬프트를 읽고 생성하도록 훈련된 LLM
- 모델을 반복적으로 재프롬프트하는 런타임 코드
- OpenAI가 이 차이를 명확히 설명하지 않음
복잡한 프롬프트 평가의 어려움
- 프롬프트 평가 과정이 숨겨져 있어 디버깅이 어려움
- 사용자로서는 결과만 중요하고 과정은 중요하지 않음
o1의 품질과 비용 문제
- 품질의 큰 향상은 없으나 비용과 지연 시간에 큰 부정적 영향이 있음
GPT-4o와 o1-preview의 비교
- GPT-4o는 최적의 틱택토 전략을 제공하지 못함
- o1-preview는 최적의 전략을 제공하나 비표준 그리드에서는 실패함
기본적인 수학 문제 해결의 어려움
- 세 숫자를 더하고 나누어 같은 결과를 얻는 문제 해결 시도
- 현재 모델이 기본적인 학교 문제도 해결하기 어려움
법률 질문 테스트
- GPT-4o는 즉시 올바른 답변을 제공함
- o1-preview는 잘못된 답변을 제공하고 여러 번의 후속 질문이 필요함
Markdown 콘텐츠 처리 문제
- Markdown 콘텐츠에 기호 논리 표현과 증명 예제를 포함했을 때 서비스 약관 위반으로 간주됨