1P by neo 4일전 | ★ favorite | 댓글 2개

발표

  • Claude 3.7 Sonnet과 Claude Code가 발표됨. Claude 3.7 Sonnet은 시장 최초의 하이브리드 추론 모델로, 빠른 응답과 단계별 사고를 제공함. API 사용자는 모델의 사고 시간을 세밀하게 조절할 수 있음.
  • Claude 3.7 Sonnet은 코딩과 프론트엔드 웹 개발에서 특히 강력한 성능을 보임. Claude Code는 터미널에서 직접 엔지니어링 작업을 위임할 수 있는 명령줄 도구로, 제한된 연구 미리보기로 제공됨.
  • Claude 3.7 Sonnet은 모든 Claude 플랜과 Anthropic API, Amazon Bedrock, Google Cloud의 Vertex AI에서 사용 가능함. 확장된 사고 모드는 무료 Claude 계층을 제외한 모든 플랫폼에서 사용 가능함.

Claude 3.7 Sonnet: 실용적인 최첨단 추론

  • Claude 3.7 Sonnet은 기존의 추론 모델과 다른 철학으로 개발됨. 인간이 빠른 응답과 깊은 반성을 위해 하나의 뇌를 사용하는 것처럼, 추론은 통합된 기능이어야 한다고 믿음.
  • Claude 3.7 Sonnet은 일반 LLM과 추론 모델을 하나로 통합하여, 사용자가 일반 응답과 깊은 사고를 선택할 수 있음. 확장된 사고 모드에서는 수학, 물리학, 코딩 등에서 성능이 향상됨.
  • API를 통해 Claude 3.7 Sonnet을 사용할 때, 사용자는 사고에 대한 예산을 조절할 수 있음. 이는 응답의 속도와 품질을 조절할 수 있게 함.
  • Claude 3.7 Sonnet은 수학 및 컴퓨터 과학 문제보다는 실제 비즈니스 사용 사례에 중점을 둠. 초기 테스트에서 코딩 능력에서 우수한 성과를 보임.

Claude Code

  • Claude Code는 개발자들이 코드 검색, 파일 편집, 테스트 실행, GitHub에 코드 커밋 및 푸시 등을 할 수 있게 도와주는 도구임.
  • Claude Code는 테스트 주도 개발, 복잡한 문제 디버깅, 대규모 리팩토링에서 특히 유용함. 초기 테스트에서 개발 시간을 크게 단축함.
  • Claude Code의 목표는 개발자들이 Claude를 어떻게 사용하는지 이해하여 향후 모델 개선에 반영하는 것임.

Claude와 함께 코드베이스 작업하기

  • Claude.ai에서 코딩 경험이 개선됨. GitHub 통합이 모든 Claude 플랜에서 가능해져, 개발자들이 코드 저장소를 Claude에 직접 연결할 수 있음.
  • Claude 3.7 Sonnet은 개인, 업무, 오픈 소스 프로젝트에 대한 깊은 이해를 통해 버그 수정, 기능 개발, 문서 작성에서 강력한 파트너가 됨.

책임감 있게 구축하기

  • Claude 3.7 Sonnet은 보안, 안전, 신뢰성을 보장하기 위해 외부 전문가와 협력하여 광범위한 테스트와 평가를 거침.
  • 새로운 안전 결과를 다루는 시스템 카드가 제공됨. 이는 다른 AI 연구소와 연구자들이 적용할 수 있는 책임 있는 확장 정책 평가를 포함함.

미래를 향해

  • Claude 3.7 Sonnet과 Claude Code는 인간의 능력을 증강할 수 있는 AI 시스템을 향한 중요한 단계임. 이들은 깊이 있는 추론, 자율적인 작업, 효과적인 협업을 통해 인간의 성취를 확장함.
  • 새로운 기능을 탐색하고 창조할 것을 기대하며, 지속적인 개선을 위해 피드백을 환영함.
Hacker News 의견
  • Claude 3.7 Sonnet이 Aider 다국어 리더보드에서 60.4%를 기록했음

    • 생각 없이도 높은 점수를 기록했으며, Sonnet 3.5의 기록을 넘었음
    • Aider 0.75.0이 3.7 Sonnet을 지원함
    • 곧 생각 지원 및 벤치마크 결과가 나올 예정임
  • Claude Code 팀의 Boris가 제품에 대한 질문에 답변할 예정임

  • Kagi LLM 벤치마크가 Sonnet 3.7의 일반 목적 및 생각 모드로 업데이트됨

    • Gemini 2.0 pro 다음으로 두 번째로 강력한 일반 목적 LLM으로 평가됨
    • 생각 모드에서는 o1-mini 및 o3-mini와 비슷한 수준임
    • 전반적으로 높은 품질과 속도를 동일한 가격에 제공함
    • Kagi Assistant에 24시간 내에 활성화될 예정임
  • HN 프로필을 분석할 수 있는 재미있는 기능이 있음

    • 새로운 모델의 유머를 테스트하는 데 사용 중임
  • OpenAI가 실제 비즈니스에서 LLM을 사용하는 방식에 초점을 맞추고 있음

    • "가장 똑똑한 모델"을 목표로 하지만, 실제로는 학습 보조, 데이터 변환, 코드 작성에 주로 사용됨
    • "지능"과 "실용성"의 균형이 중요함
  • Anthropic이 코드에 집중하는 것이 타당함

    • Devin 경쟁자가 어떻게 될지 궁금함
  • Cursor를 최신 버전으로 업데이트하고 "claude-3.7-sonnet"을 모델 목록에 추가했음

    • "claude-3.7-sonnet-thinking"도 작동함
    • 곧 생각 시간 제어 기능이 추가될 예정임
  • Claude 3.7 Sonnet과의 첫 상호작용에서 깊은 인상을 받았음

    • CloudFlare 페이지 함수의 문제를 해결하는 데 도움을 받았음
    • Claude 3.7이 문제를 정확히 찾아내고 해결책을 제시했음
  • Claude가 30초 만에 학사 논문의 절반을 다시 작성했음

    • Gemini Flash 2는 실패했음
  • o1 pro가 몇 번 놀라운 성과를 보여줬음

    • 복잡한 MCU 코드를 검토하는 데 도움을 받았음
    • o1 pro가 SPI를 사용한 코드를 이해하고 문제를 지적했음
    • Claude 3.7의 생각 모드는 그다지 유용하지 않았음
    • o1 pro가 IPsec VPN 문제를 해결하는 데 도움을 줬음
    • ChatGPT와 Claude를 비교하며 사용 중임

flash 2랑 비교하기엔 너무 가격 차이가 큰데.. 딱 o1pro와 o3-mini의 중간급