▲GN⁺ 2025-02-01 | parent | ★ favorite | on: OpenAI o3-Mini 출시(openai.com)Hacker News 의견 Claude-3.5-sonnet 모델은 일관성이 뛰어나며, 다른 모델들은 ADHD와 같은 문제를 겪고 있음 NextJS 앱에서 shadcn 컴포넌트를 사용하려고 할 때, sonnet은 거의 완벽하게 수행하지만 다른 모델들은 radix-ui를 사용하려고 함 o3-mini 모델도 동일한 문제를 겪고 있음 cursor의 지시 세트가 문제일 가능성이 있음 sonnet이 유일한 실행 가능한 코딩 옵션으로 남아 있음 o3-mini의 응답이 o1-mini보다 56% 더 선호됨 두 응답이 2,000 단어일 때, 질문에 대한 답변을 빨리 한 쪽을 선택하는 경향이 있음 이 설문은 무의미하며, 50% 응답률은 동전 던지기와 같음 o3-mini를 사용하여 스레드를 요약한 결과를 공유함 18,936 입력, 2,905 출력에 3.3612 센트가 소요됨 AI 코딩에서 o3-mini는 o1과 비슷한 점수를 얻었으며, 비용은 10배 저렴함 o3-mini는 중간 노력으로 R1과 Sonnet 사이의 점수를 얻음 새로운 모델과 reasoning_effort 옵션을 지원하는 LLM CLI 도구의 새 릴리스를 발표함 예시 사용법을 공유함 o3-mini의 SWE 벤치 점수가 61%에서 49.3%로 떨어졌음을 지적함 o3-mini가 실제 코딩 작업에서 Claude와 비슷한 성능을 보임 o3-mini-high가 seg fault의 근본 원인을 성공적으로 찾았음을 언급함 이전에 o1이 놓친 문제를 해결함 SWE-Bench에서 상당한 증가를 보였으며, 이전에 o1-mini가 처리하지 못한 작업을 처리할 수 있는지 다시 시도할 가치가 있음 $4/백만 출력 토큰 대 $60의 비용 차이가 있음 AI 환경이 빠르게 변화하고 있으며, 새로운 AI 모델들이 등장하고 있음 AI의 변화가 이번 릴리스와 향후 릴리스에 어떤 영향을 미칠지 궁금해 함
Hacker News 의견
Claude-3.5-sonnet 모델은 일관성이 뛰어나며, 다른 모델들은 ADHD와 같은 문제를 겪고 있음
o3-mini의 응답이 o1-mini보다 56% 더 선호됨
o3-mini를 사용하여 스레드를 요약한 결과를 공유함
AI 코딩에서 o3-mini는 o1과 비슷한 점수를 얻었으며, 비용은 10배 저렴함
새로운 모델과 reasoning_effort 옵션을 지원하는 LLM CLI 도구의 새 릴리스를 발표함
o3-mini의 SWE 벤치 점수가 61%에서 49.3%로 떨어졌음을 지적함
o3-mini-high가 seg fault의 근본 원인을 성공적으로 찾았음을 언급함
SWE-Bench에서 상당한 증가를 보였으며, 이전에 o1-mini가 처리하지 못한 작업을 처리할 수 있는지 다시 시도할 가치가 있음
AI 환경이 빠르게 변화하고 있으며, 새로운 AI 모델들이 등장하고 있음