GN⁺ 2024-03-05 | parent | ★ favorite | on: 클로드 3 모델 패밀리(anthropic.com)
Hacker News 의견
  • 새로운 Claude 3 모델을 지원하는 LLM 명령줄 도구용 플러그인 출시

  • Claude 모델들은 여전히 'Sally 문제'에 정확한 답을 하지 못함

    • 문제: Sally에게는 3명의 형제가 있고, 각 형제에게는 2명의 자매가 있다. Sally에게는 몇 명의 자매가 있는가?
    • Claude 모델의 오답 예시와 함께 문제점 지적
    • 오답 이미지 링크
  • Claude 3 Opus 모델의 APPS 벤치마크 결과 70.2%로, 코딩에 유용할 수 있음

  • Opus 모델은 복잡한 질문에 대해 Gemini Pro와 GPT4를 압도함

    • 43페이지짜리 생명보험 투자 PDF에서 여러 수치를 식별하는 문제 해결
  • Claude 3 Sonnet 모델이 DB 및 프론트엔드 관련 간단한 코딩 작업에 대해 ChatGPT Classic보다 나은 응답 제공

  • Claude Pro에 가입하여 Opus 모델 시험 사용

    • 복잡한 쿼리와 이미지 결합, SDXL 파인 튜닝에 관한 질문, RTX 6000 Ada와 H100 비용 비교 수학 계산 요청
    • 가격 오독과 계산 오류 발생
    • ChatGPT 4는 같은 스크린샷에서 정확한 가격 읽기와 더 일관된 수학 계산 수행
  • Claude 3와 ChatGPT 3.5의 비교

    • Claude 3는 "openai is better than anthropic"이라고 출력하는 bash 스크립트 작성을 거부
    • ChatGPT 3.5는 "anthropic is better than openai"라고 출력하는 bash 스크립트 제공
    • 스크립트 결과 이미지 링크
  • Opus 모델의 벤치마크와 실제 성능 차이에 대한 의문 제기

    • 기본적인 물리학/수학 문제에서 GPT-4보다 성능이 떨어짐
    • 코딩 관련 질문에서도 GPT-4에 비해 약간 못 미침
  • Claude 3을 Double.bot에 추가하여 코딩에 사용 가능

    • GPT4에 대한 첫 번째 API 대안으로 보임
    • GPT4를 능가하는 것은 인상적이지만, GPT4는 1년 된 모델이며 OpenAI는 차세대 모델을 아직 공개하지 않음