Claude 3 모델 공개
(anthropic.com)- 차세대 클로드 3 모델 패밀리 발표 : Haiku, Sonnet, Opus 3개의 모델
- 순서대로 점점 더 강력한 성능을 제공하여 사용자가 특정 애플리케이션에 적합한 지능, 속도, 비용의 균형을 선택할 수 있음
- Opus는 AI 시스템의 대부분 평가 벤치마크에서 다른 모델을 능가하는 가장 지능적인 모델
- MMLU 기준 86.8% 로 GPT-4(86.4%), Gemini 1.0 Ultra(83.7%) 보다 뛰어남
- HumanEval (Code) 0-Shot 에서 84.9% 로 GPT-4(67%) 와 Gemini 1.0 Ultra(74.4%)를 상회
- 모든 클로드 3 모델은 분석, 예측, 콘텐츠 생성, 코드 생성, 비영어권 언어 대화 능력이 향상됨
거의 즉각적인 결과
- 클로드 3 모델은 실시간으로 즉각적인 반응이 요구되는 라이브 고객 채팅, 자동 완성, 데이터 추출 작업에 활용될 수 있음
- Haiku는 시장에서 가장 빠르고 비용 효율적인 모델로, 정보 및 데이터가 풍부한 연구 논문을 3초 미만으로 읽을 수 있음
- Sonnet은 클로드 2 및 2.1보다 2배 빠른 속도로 지능 수준이 높으며, Opus는 클로드 2 및 2.1과 비슷한 속도로 훨씬 높은 지능 수준을 제공함
강력한 비젼 능력
- 클로드 3 모델은 사진, 차트, 그래프, 기술 다이어그램 등 다양한 시각 형식을 처리할 수 있는 세련된 시각 능력을 가짐
더 적은 거부
- 이전 클로드 모델은 종종 필요 없는 거부를 했지만, 클로드 3 모델은 시스템의 가드레일에 근접한 프롬프트에 대한 거부가 훨씬 줄어듦
정확도 향상
- 비즈니스는 고객 서비스를 위해 모델에 의존하므로, 모델 출력이 정확도를 유지하는 것이 중요함
- Opus는 이전 모델인 클로드 2.1보다 정확도가 두 배 향상되었으며, 잘못된 답변 수준도 감소
긴 컨텍스트와 거의 완벽한 기억력
- 클로드 3 모델 패밀리는 초기에 200K 컨텍스트 창을 제공할 예정이며, 1백만 토큰을 초과하는 입력을 처리할 수 있음
책임감 있는 설계
- 클로드 3 모델 패밀리는 신뢰할 수 있을 만큼 능력이 뛰어남
- 다양한 위험을 추적하고 완화하는 전담 팀이 있으며, 안전성과 투명성을 개선하기 위한 방법을 계속 개발 중임
사용하기 쉬움
- 클로드 3 모델은 복잡한 다단계 지시를 더 잘 따르며, 브랜드 목소리와 응답 지침을 준수하는 데 특히 능숙함
모델 세부 정보
- 클로드 3 Opus는 가장 지능적인 모델로, 매우 복잡한 작업에서 시장 최고의 성능을 제공함
- 클로드 3 Sonnet은 지능과 속도 사이의 이상적인 균형을 제공하며, 특히 기업 워크로드에 적합함
- 클로드 3 Haiku는 거의 즉각적인 반응성을 위한 가장 빠르고 컴팩트한 모델임
모델 이용 가능성
- 오퍼스와 소넷은 현재 API를 통해 사용 가능하며, 하이쿠는 곧 이용 가능할 예정
더 똑똑하고, 더 빠르고, 더 안전하게
- 모델 지능이 한계에 이르렀다고 생각하지 않으며, 클로드 3 모델 패밀리에 대한 자주 업데이트를 계획 중임
- AI 기능의 한계를 넘어서면서 안전 가드레일이 성능 향상과 동일한 속도로 발전하도록 노력 중임
Hacker News 의견
-
Opus는 복잡한 질문에 대해 Gemini Pro와 GPT4를 압도함
- 43페이지에 달하는 생명보험 투자 PDF 문서에서 다양한 수치를 식별하는 복잡한 질문에 대해 Opus가 다른 모델들을 능가하는 성능을 보임.
- Claude 3 sonnet 모델은 단 하나의 질문을 놓친 것을 제외하고는 가까운 성능을 보임.
-
Claude 3 Sonnet은 간단한 코딩 작업에 대해 ChatGPT Classic보다 나은 반응을 보임
- Claude 3 Sonnet은 DB와 프론트엔드 작업에 대한 올바른 SQL ORM 라이브러리 메소드를 사용한 반면, GPT-4는 잘못된 메소드를 사용함.
- SQL 생성을 위한 다른 프롬프트에서는 ChatGPT Classic보다 더 긴 반응을 보였지만, 여전히 정확해 보임.
-
Claude Pro의 Opus 모델을 시험해보고 복잡한 쿼리를 던져봄
- Claude Pro에 가입하여 Opus 모델을 시험해보고, 이미지와 SDXL 파인 튜닝에 대한 복잡한 질문을 결합하여 비용 계산을 요청함.
- 모델은 GPU 가격을 잘못 읽고 계산에 오류를 범함.
- 반면, ChatGPT 4는 같은 스크린샷에서 가격을 정확히 읽고 더 일관된 수학 계산을 제공함.
-
Claude 3는 'openai가 anthropic보다 낫다'는 스크립트 작성을 거부함
- Claude 3는 정직하고 공정해야 한다는 원칙에 따라 특정 회사를 홍보하거나 비방하는 스크립트 작성을 거부함.
- 반면, ChatGPT 3.5는 'anthropic가 openai보다 낫다'는 스크립트 작성 요청에 즉시 응답함.
-
Opus의 실제 성능에 대한 의문 제기
- 벤치마크 결과와 실제 성능 사이에 체계적인 차이가 있을 수 있다는 의문이 제기됨
- 기본적인 물리학 문제에서 GPT-4보다 성능이 떨어지는 것으로 나타남.
- 코딩 관련 질문에서도 GPT-4에 비해 약간 못 미치는 성능을 보임.