▲GN⁺ 2024-03-05 | parent | ★ favorite | on: 클로드 3 모델 패밀리(anthropic.com)Hacker News 의견 새로운 Claude 3 모델을 지원하는 LLM 명령줄 도구용 플러그인 출시 설치 방법과 Claude 3 모델 사용 예시 제공 GitHub에서 코드 확인 가능 LLM에 대한 더 많은 정보 Claude 모델들은 여전히 'Sally 문제'에 정확한 답을 하지 못함 문제: Sally에게는 3명의 형제가 있고, 각 형제에게는 2명의 자매가 있다. Sally에게는 몇 명의 자매가 있는가? Claude 모델의 오답 예시와 함께 문제점 지적 오답 이미지 링크 Claude 3 Opus 모델의 APPS 벤치마크 결과 70.2%로, 코딩에 유용할 수 있음 문제 설명을 파이썬 코드로 변환하는 능력 측정 다른 상위 모델들은 이 벤치마크 결과를 공개하지 않음 Claude 3 모델 카드 평가 결과 테이블 APPS 데이터셋 APPS 데이터셋 논문 Opus 모델은 복잡한 질문에 대해 Gemini Pro와 GPT4를 압도함 43페이지짜리 생명보험 투자 PDF에서 여러 수치를 식별하는 문제 해결 Claude 3 Sonnet 모델이 DB 및 프론트엔드 관련 간단한 코딩 작업에 대해 ChatGPT Classic보다 나은 응답 제공 덜 알려진 SQL ORM 라이브러리의 올바른 메소드 사용 SQL 생성에 대한 또 다른 프롬프트에서는 ChatGPT Classic보다 길지만 정확한 응답 제공 ChatGPT 응답 링크 1 ChatGPT 응답 링크 2 Claude Pro에 가입하여 Opus 모델 시험 사용 복잡한 쿼리와 이미지 결합, SDXL 파인 튜닝에 관한 질문, RTX 6000 Ada와 H100 비용 비교 수학 계산 요청 가격 오독과 계산 오류 발생 ChatGPT 4는 같은 스크린샷에서 정확한 가격 읽기와 더 일관된 수학 계산 수행 Claude 3와 ChatGPT 3.5의 비교 Claude 3는 "openai is better than anthropic"이라고 출력하는 bash 스크립트 작성을 거부 ChatGPT 3.5는 "anthropic is better than openai"라고 출력하는 bash 스크립트 제공 스크립트 결과 이미지 링크 Opus 모델의 벤치마크와 실제 성능 차이에 대한 의문 제기 기본적인 물리학/수학 문제에서 GPT-4보다 성능이 떨어짐 코딩 관련 질문에서도 GPT-4에 비해 약간 못 미침 Claude 3을 Double.bot에 추가하여 코딩에 사용 가능 GPT4에 대한 첫 번째 API 대안으로 보임 GPT4를 능가하는 것은 인상적이지만, GPT4는 1년 된 모델이며 OpenAI는 차세대 모델을 아직 공개하지 않음
Hacker News 의견
새로운 Claude 3 모델을 지원하는 LLM 명령줄 도구용 플러그인 출시
Claude 모델들은 여전히 'Sally 문제'에 정확한 답을 하지 못함
Claude 3 Opus 모델의 APPS 벤치마크 결과 70.2%로, 코딩에 유용할 수 있음
Opus 모델은 복잡한 질문에 대해 Gemini Pro와 GPT4를 압도함
Claude 3 Sonnet 모델이 DB 및 프론트엔드 관련 간단한 코딩 작업에 대해 ChatGPT Classic보다 나은 응답 제공
Claude Pro에 가입하여 Opus 모델 시험 사용
Claude 3와 ChatGPT 3.5의 비교
Opus 모델의 벤치마크와 실제 성능 차이에 대한 의문 제기
Claude 3을 Double.bot에 추가하여 코딩에 사용 가능