▲GN⁺ 2025-04-17 | parent | ★ favorite | on: OpenAI, o3 와 o4-mini 모델 공개(openai.com)Hacker News 의견 Final Fantasy VII 역공학에 대한 기술적 질문을 했으나 AI가 잘못된 정보를 제공함 AI가 포럼과 사이트에서 정보를 찾았지만, 잘못된 세부사항을 상상하여 결과가 부정확했음 AI가 답을 모른다는 것을 인지하고 있었으나, 자신 있게 잘못된 값을 제시함 AI가 정답을 찾지 못하면 솔직하게 말해주길 기대함 NixOS에서 최신 Webstorm 설치를 위해 o3를 사용했는데, NixOS VM을 실행하고 패키지를 다운로드하여 설치 지침을 제공함 GUI 테스트까지 수행한 것으로 보이며, 매우 인상적임 Claude 3.7이 SWE-bench에서 여전히 최고의 성능을 보임 OpenAI 모델도 유사한 성능을 보일 가능성이 있음 C#에서 base 62 변환기를 작성하는 간단한 "튜링 테스트"를 o4-mini-high로 성공적으로 수행함 2025년 8월의 신월 날짜를 여러 AI에게 물어봤으나, 대부분 잘못된 답변을 받음 Claude는 특정 검색 엔진을 차단하는 방법에 대해 답변을 거부함 o3와 o4는 웹 검색 도구가 없을 때 이를 인지하고 답변을 거부함 4o와 4.1은 잘못된 정보를 제공함 새로운 웹 검색 기능이 유용하며, 불필요한 파이썬 스크립트를 삭제할 수 있게 됨 Codex CLI가 오픈 소스로 제공됨 Sonnet 3.7이나 Gemini Pro 2.5와의 비교가 없었음 대규모 강화 학습이 더 많은 컴퓨팅 자원을 사용할수록 성능이 향상되는 경향을 보임 이러한 경향이 얼마나 지속될지 의문임 소비자로서 어떤 모델을 사용해야 할지 따라가는 것이 피곤함
Hacker News 의견
Final Fantasy VII 역공학에 대한 기술적 질문을 했으나 AI가 잘못된 정보를 제공함
NixOS에서 최신 Webstorm 설치를 위해 o3를 사용했는데, NixOS VM을 실행하고 패키지를 다운로드하여 설치 지침을 제공함
Claude 3.7이 SWE-bench에서 여전히 최고의 성능을 보임
C#에서 base 62 변환기를 작성하는 간단한 "튜링 테스트"를 o4-mini-high로 성공적으로 수행함
2025년 8월의 신월 날짜를 여러 AI에게 물어봤으나, 대부분 잘못된 답변을 받음
o3와 o4는 웹 검색 도구가 없을 때 이를 인지하고 답변을 거부함
Codex CLI가 오픈 소스로 제공됨
Sonnet 3.7이나 Gemini Pro 2.5와의 비교가 없었음
대규모 강화 학습이 더 많은 컴퓨팅 자원을 사용할수록 성능이 향상되는 경향을 보임
소비자로서 어떤 모델을 사용해야 할지 따라가는 것이 피곤함