Hacker News 의견
  • Claude 3.7 Sonnet이 Aider 다국어 리더보드에서 60.4%를 기록했음

    • 생각 없이도 높은 점수를 기록했으며, Sonnet 3.5의 기록을 넘었음
    • Aider 0.75.0이 3.7 Sonnet을 지원함
    • 곧 생각 지원 및 벤치마크 결과가 나올 예정임
  • Claude Code 팀의 Boris가 제품에 대한 질문에 답변할 예정임

  • Kagi LLM 벤치마크가 Sonnet 3.7의 일반 목적 및 생각 모드로 업데이트됨

    • Gemini 2.0 pro 다음으로 두 번째로 강력한 일반 목적 LLM으로 평가됨
    • 생각 모드에서는 o1-mini 및 o3-mini와 비슷한 수준임
    • 전반적으로 높은 품질과 속도를 동일한 가격에 제공함
    • Kagi Assistant에 24시간 내에 활성화될 예정임
  • HN 프로필을 분석할 수 있는 재미있는 기능이 있음

    • 새로운 모델의 유머를 테스트하는 데 사용 중임
  • OpenAI가 실제 비즈니스에서 LLM을 사용하는 방식에 초점을 맞추고 있음

    • "가장 똑똑한 모델"을 목표로 하지만, 실제로는 학습 보조, 데이터 변환, 코드 작성에 주로 사용됨
    • "지능"과 "실용성"의 균형이 중요함
  • Anthropic이 코드에 집중하는 것이 타당함

    • Devin 경쟁자가 어떻게 될지 궁금함
  • Cursor를 최신 버전으로 업데이트하고 "claude-3.7-sonnet"을 모델 목록에 추가했음

    • "claude-3.7-sonnet-thinking"도 작동함
    • 곧 생각 시간 제어 기능이 추가될 예정임
  • Claude 3.7 Sonnet과의 첫 상호작용에서 깊은 인상을 받았음

    • CloudFlare 페이지 함수의 문제를 해결하는 데 도움을 받았음
    • Claude 3.7이 문제를 정확히 찾아내고 해결책을 제시했음
  • Claude가 30초 만에 학사 논문의 절반을 다시 작성했음

    • Gemini Flash 2는 실패했음
  • o1 pro가 몇 번 놀라운 성과를 보여줬음

    • 복잡한 MCU 코드를 검토하는 데 도움을 받았음
    • o1 pro가 SPI를 사용한 코드를 이해하고 문제를 지적했음
    • Claude 3.7의 생각 모드는 그다지 유용하지 않았음
    • o1 pro가 IPsec VPN 문제를 해결하는 데 도움을 줬음
    • ChatGPT와 Claude를 비교하며 사용 중임

flash 2랑 비교하기엔 너무 가격 차이가 큰데.. 딱 o1pro와 o3-mini의 중간급