LLM으로 추론하는 법 배우기

▲

GN⁺ 2024-09-13 | parent | ★ favorite | on: LLM으로 추론하는 법 배우기(openai.com)

Hacker News 의견

첫 번째 의견
- 문서에서 얻은 실용적인 정보 요약
  - 접근하려면 5단계 등급에 있어야 하며, 총 $1,000 지불 및 첫 성공적인 결제 후 30일 이상 경과해야 함
  - 가격은 입력 토큰 100만 개당 $15, 출력 토큰 100만 개당 $60
  - 컨텍스트 윈도우는 128k 토큰, 최대 출력은 32,768 토큰
  - 최대 출력 토큰이 두 배인 미니 버전도 있으며, 가격은 입력 토큰 100만 개당 $3, 출력 토큰 100만 개당 $12
  - 블로그 포스트에서 언급된 전문 코딩 버전은 사용 불가
  - 숨겨진 chain of thought reasoning이 유료 출력 토큰으로 청구되는지 불확실함
두 번째 의견
- 첫 두 정확도 그래프에 구체적인 라벨이 없어 회의적임
  - 80% 정확도 테스트 결과가 얼마나 걸렸는지 알 수 없음
  - 기사 초반의 그래프와 코딩 섹션의 10시간 문제 해결이 연결되는지 불분명함
  - 데이터가 많지만 첫 두 그래프의 데이터가 불투명해 신뢰가 가지 않음
세 번째 의견
- "안전성" 예시가 터무니없음
  - OpenAI가 LLM이 strychnine 합성에 대한 자세한 지침을 제공하는 것은 용납할 수 없다고 하면서도, 이전에 생성된 "안전하지 않은" 지침을 게시함
  - LLM이 지식을 공유하는 것에 대한 과도한 안전성 집착
네 번째 의견
- 모델 성능은 chain of thought에 의해 좌우되지만, 경쟁 우위 등의 이유로 사용자에게 제공되지 않음
  - GPT4 출시 이후 GPT4 출력을 기반으로 비OpenAI 모델을 미세 조정하는 것이 일반적이 됨
  - OpenAI가 chain of thought 응답을 제공하지 않는 이유는 결과 재현을 어렵게 하기 위함
다섯 번째 의견
- GPT-4 모델을 사용해 주방 팬의 바이너리 블루투스 프로토콜을 역설계하는 데 도움을 받음
  - o1-preview와 o1-mini 모델이 패턴을 이해하고 디코딩함
  - GPT4o 모델은 이전과 동일한 결과를 제공함
  - 놀라운 진전
여섯 번째 의견
- chain-of-thought prompting과 강화 학습을 통한 chain of thought 전략 학습의 차이를 이해하지 못하는 댓글이 많음
  - 강화 학습을 통해 o1이 chain of thought를 연마하고 전략을 개선함
일곱 번째 의견
- Cipher 예제의 Chain of Thought를 읽는 것이 흥미로움
  - 논리를 천천히 작성하고 그 위에 추론하는 것이 논리적 사고를 향상시킴
여덟 번째 의견
- 네덜란드 TV 쇼의 자막 문제를 이해하는 데 o1이 잘 작동함
  - 자막의 움라우트 u가 1/4로 표시되는 이유를 물었을 때, 인코딩 문제를 정확히 설명함
아홉 번째 의견
- ROT 암호문을 해독하는 데 있어 실망스러운 결과를 얻음
  - 많은 단계가 잘못되었거나 따르지 않음
  - chain of thought 엔진에서 유용성을 얻는 패턴을 찾기 어려움
열 번째 의견
- 기술적 성과는 크지만, LLM이 여전히 환각에 취약해 도구의 유용성에 대해 걱정됨
  - 전문가가 아닌 사용자가 잘못된 답변에 의존할 위험이 있음
  - 예를 들어, 데이터베이스 조인 순서 최적화 알고리즘을 평가할 때 잘못된 정보를 제공함