GN⁺ 2025-02-01 | parent | ★ favorite | on: OpenAI o3-Mini 출시(openai.com)
Hacker News 의견
  • Claude-3.5-sonnet 모델은 일관성이 뛰어나며, 다른 모델들은 ADHD와 같은 문제를 겪고 있음

    • NextJS 앱에서 shadcn 컴포넌트를 사용하려고 할 때, sonnet은 거의 완벽하게 수행하지만 다른 모델들은 radix-ui를 사용하려고 함
    • o3-mini 모델도 동일한 문제를 겪고 있음
    • cursor의 지시 세트가 문제일 가능성이 있음
    • sonnet이 유일한 실행 가능한 코딩 옵션으로 남아 있음
  • o3-mini의 응답이 o1-mini보다 56% 더 선호됨

    • 두 응답이 2,000 단어일 때, 질문에 대한 답변을 빨리 한 쪽을 선택하는 경향이 있음
    • 이 설문은 무의미하며, 50% 응답률은 동전 던지기와 같음
  • o3-mini를 사용하여 스레드를 요약한 결과를 공유함

    • 18,936 입력, 2,905 출력에 3.3612 센트가 소요됨
  • AI 코딩에서 o3-mini는 o1과 비슷한 점수를 얻었으며, 비용은 10배 저렴함

    • o3-mini는 중간 노력으로 R1과 Sonnet 사이의 점수를 얻음
  • 새로운 모델과 reasoning_effort 옵션을 지원하는 LLM CLI 도구의 새 릴리스를 발표함

    • 예시 사용법을 공유함
  • o3-mini의 SWE 벤치 점수가 61%에서 49.3%로 떨어졌음을 지적함

    • o3-mini가 실제 코딩 작업에서 Claude와 비슷한 성능을 보임
  • o3-mini-high가 seg fault의 근본 원인을 성공적으로 찾았음을 언급함

    • 이전에 o1이 놓친 문제를 해결함
  • SWE-Bench에서 상당한 증가를 보였으며, 이전에 o1-mini가 처리하지 못한 작업을 처리할 수 있는지 다시 시도할 가치가 있음

    • $4/백만 출력 토큰 대 $60의 비용 차이가 있음
  • AI 환경이 빠르게 변화하고 있으며, 새로운 AI 모델들이 등장하고 있음

    • AI의 변화가 이번 릴리스와 향후 릴리스에 어떤 영향을 미칠지 궁금해 함