클로드 3 모델 패밀리

▲

GN⁺ 2024-03-05 | parent | ★ favorite | on: 클로드 3 모델 패밀리(anthropic.com)

Hacker News 의견

새로운 Claude 3 모델을 지원하는 LLM 명령줄 도구용 플러그인 출시
- 설치 방법과 Claude 3 모델 사용 예시 제공
- GitHub에서 코드 확인 가능
- LLM에 대한 더 많은 정보
Claude 모델들은 여전히 'Sally 문제'에 정확한 답을 하지 못함
- 문제: Sally에게는 3명의 형제가 있고, 각 형제에게는 2명의 자매가 있다. Sally에게는 몇 명의 자매가 있는가?
- Claude 모델의 오답 예시와 함께 문제점 지적
- 오답 이미지 링크
Claude 3 Opus 모델의 APPS 벤치마크 결과 70.2%로, 코딩에 유용할 수 있음
- 문제 설명을 파이썬 코드로 변환하는 능력 측정
- 다른 상위 모델들은 이 벤치마크 결과를 공개하지 않음
- Claude 3 모델 카드
- 평가 결과 테이블
- APPS 데이터셋
- APPS 데이터셋 논문
Opus 모델은 복잡한 질문에 대해 Gemini Pro와 GPT4를 압도함
- 43페이지짜리 생명보험 투자 PDF에서 여러 수치를 식별하는 문제 해결
Claude 3 Sonnet 모델이 DB 및 프론트엔드 관련 간단한 코딩 작업에 대해 ChatGPT Classic보다 나은 응답 제공
- 덜 알려진 SQL ORM 라이브러리의 올바른 메소드 사용
- SQL 생성에 대한 또 다른 프롬프트에서는 ChatGPT Classic보다 길지만 정확한 응답 제공
- ChatGPT 응답 링크 1
- ChatGPT 응답 링크 2
Claude Pro에 가입하여 Opus 모델 시험 사용
- 복잡한 쿼리와 이미지 결합, SDXL 파인 튜닝에 관한 질문, RTX 6000 Ada와 H100 비용 비교 수학 계산 요청
- 가격 오독과 계산 오류 발생
- ChatGPT 4는 같은 스크린샷에서 정확한 가격 읽기와 더 일관된 수학 계산 수행
Claude 3와 ChatGPT 3.5의 비교
- Claude 3는 "openai is better than anthropic"이라고 출력하는 bash 스크립트 작성을 거부
- ChatGPT 3.5는 "anthropic is better than openai"라고 출력하는 bash 스크립트 제공
- 스크립트 결과 이미지 링크
Opus 모델의 벤치마크와 실제 성능 차이에 대한 의문 제기
- 기본적인 물리학/수학 문제에서 GPT-4보다 성능이 떨어짐
- 코딩 관련 질문에서도 GPT-4에 비해 약간 못 미침
Claude 3을 Double.bot에 추가하여 코딩에 사용 가능
- GPT4에 대한 첫 번째 API 대안으로 보임
- GPT4를 능가하는 것은 인상적이지만, GPT4는 1년 된 모델이며 OpenAI는 차세대 모델을 아직 공개하지 않음