Hacker News 의견
  • Final Fantasy VII 역공학에 대한 기술적 질문을 했으나 AI가 잘못된 정보를 제공함

    • AI가 포럼과 사이트에서 정보를 찾았지만, 잘못된 세부사항을 상상하여 결과가 부정확했음
    • AI가 답을 모른다는 것을 인지하고 있었으나, 자신 있게 잘못된 값을 제시함
    • AI가 정답을 찾지 못하면 솔직하게 말해주길 기대함
  • NixOS에서 최신 Webstorm 설치를 위해 o3를 사용했는데, NixOS VM을 실행하고 패키지를 다운로드하여 설치 지침을 제공함

    • GUI 테스트까지 수행한 것으로 보이며, 매우 인상적임
  • Claude 3.7이 SWE-bench에서 여전히 최고의 성능을 보임

    • OpenAI 모델도 유사한 성능을 보일 가능성이 있음
  • C#에서 base 62 변환기를 작성하는 간단한 "튜링 테스트"를 o4-mini-high로 성공적으로 수행함

  • 2025년 8월의 신월 날짜를 여러 AI에게 물어봤으나, 대부분 잘못된 답변을 받음

    • Claude는 특정 검색 엔진을 차단하는 방법에 대해 답변을 거부함
  • o3와 o4는 웹 검색 도구가 없을 때 이를 인지하고 답변을 거부함

    • 4o와 4.1은 잘못된 정보를 제공함
    • 새로운 웹 검색 기능이 유용하며, 불필요한 파이썬 스크립트를 삭제할 수 있게 됨
  • Codex CLI가 오픈 소스로 제공됨

  • Sonnet 3.7이나 Gemini Pro 2.5와의 비교가 없었음

  • 대규모 강화 학습이 더 많은 컴퓨팅 자원을 사용할수록 성능이 향상되는 경향을 보임

    • 이러한 경향이 얼마나 지속될지 의문임
  • 소비자로서 어떤 모델을 사용해야 할지 따라가는 것이 피곤함