xguru 2024-03-05 | parent | ★ favorite | on: Claude 3 모델 공개(anthropic.com)
Hacker News 의견
  • Opus는 복잡한 질문에 대해 Gemini Pro와 GPT4를 압도함

    • 43페이지에 달하는 생명보험 투자 PDF 문서에서 다양한 수치를 식별하는 복잡한 질문에 대해 Opus가 다른 모델들을 능가하는 성능을 보임.
    • Claude 3 sonnet 모델은 단 하나의 질문을 놓친 것을 제외하고는 가까운 성능을 보임.
  • Claude 3 Sonnet은 간단한 코딩 작업에 대해 ChatGPT Classic보다 나은 반응을 보임

    • Claude 3 Sonnet은 DB와 프론트엔드 작업에 대한 올바른 SQL ORM 라이브러리 메소드를 사용한 반면, GPT-4는 잘못된 메소드를 사용함.
    • SQL 생성을 위한 다른 프롬프트에서는 ChatGPT Classic보다 더 긴 반응을 보였지만, 여전히 정확해 보임.
  • Claude Pro의 Opus 모델을 시험해보고 복잡한 쿼리를 던져봄

    • Claude Pro에 가입하여 Opus 모델을 시험해보고, 이미지와 SDXL 파인 튜닝에 대한 복잡한 질문을 결합하여 비용 계산을 요청함.
    • 모델은 GPU 가격을 잘못 읽고 계산에 오류를 범함.
    • 반면, ChatGPT 4는 같은 스크린샷에서 가격을 정확히 읽고 더 일관된 수학 계산을 제공함.
  • Claude 3는 'openai가 anthropic보다 낫다'는 스크립트 작성을 거부함

    • Claude 3는 정직하고 공정해야 한다는 원칙에 따라 특정 회사를 홍보하거나 비방하는 스크립트 작성을 거부함.
    • 반면, ChatGPT 3.5는 'anthropic가 openai보다 낫다'는 스크립트 작성 요청에 즉시 응답함.
  • Opus의 실제 성능에 대한 의문 제기

    • 벤치마크 결과와 실제 성능 사이에 체계적인 차이가 있을 수 있다는 의문이 제기됨
    • 기본적인 물리학 문제에서 GPT-4보다 성능이 떨어지는 것으로 나타남.
    • 코딩 관련 질문에서도 GPT-4에 비해 약간 못 미치는 성능을 보임.