▲xguru 2024-03-05 | parent | ★ favorite | on: Claude 3 모델 공개(anthropic.com)Hacker News 의견 Opus는 복잡한 질문에 대해 Gemini Pro와 GPT4를 압도함 43페이지에 달하는 생명보험 투자 PDF 문서에서 다양한 수치를 식별하는 복잡한 질문에 대해 Opus가 다른 모델들을 능가하는 성능을 보임. Claude 3 sonnet 모델은 단 하나의 질문을 놓친 것을 제외하고는 가까운 성능을 보임. Claude 3 Sonnet은 간단한 코딩 작업에 대해 ChatGPT Classic보다 나은 반응을 보임 Claude 3 Sonnet은 DB와 프론트엔드 작업에 대한 올바른 SQL ORM 라이브러리 메소드를 사용한 반면, GPT-4는 잘못된 메소드를 사용함. SQL 생성을 위한 다른 프롬프트에서는 ChatGPT Classic보다 더 긴 반응을 보였지만, 여전히 정확해 보임. Claude Pro의 Opus 모델을 시험해보고 복잡한 쿼리를 던져봄 Claude Pro에 가입하여 Opus 모델을 시험해보고, 이미지와 SDXL 파인 튜닝에 대한 복잡한 질문을 결합하여 비용 계산을 요청함. 모델은 GPU 가격을 잘못 읽고 계산에 오류를 범함. 반면, ChatGPT 4는 같은 스크린샷에서 가격을 정확히 읽고 더 일관된 수학 계산을 제공함. Claude 3는 'openai가 anthropic보다 낫다'는 스크립트 작성을 거부함 Claude 3는 정직하고 공정해야 한다는 원칙에 따라 특정 회사를 홍보하거나 비방하는 스크립트 작성을 거부함. 반면, ChatGPT 3.5는 'anthropic가 openai보다 낫다'는 스크립트 작성 요청에 즉시 응답함. Opus의 실제 성능에 대한 의문 제기 벤치마크 결과와 실제 성능 사이에 체계적인 차이가 있을 수 있다는 의문이 제기됨 기본적인 물리학 문제에서 GPT-4보다 성능이 떨어지는 것으로 나타남. 코딩 관련 질문에서도 GPT-4에 비해 약간 못 미치는 성능을 보임.
Hacker News 의견
Opus는 복잡한 질문에 대해 Gemini Pro와 GPT4를 압도함
Claude 3 Sonnet은 간단한 코딩 작업에 대해 ChatGPT Classic보다 나은 반응을 보임
Claude Pro의 Opus 모델을 시험해보고 복잡한 쿼리를 던져봄
Claude 3는 'openai가 anthropic보다 낫다'는 스크립트 작성을 거부함
Opus의 실제 성능에 대한 의문 제기