Anthropic, Computer Use 기능과 Claude 3.5 Sonnet/Haiku 모델 공개

(anthropic.com)

10P by GN⁺ 2024-10-23 | ★ favorite | 댓글 1개

Anthropic에서 업그레이드된 Claude 3.5 Sonnet과 새로운 모델인 Claude 3.5 Haiku를 발표함
Claude에게 사람처럼 컴퓨터를 사용하도록 지시할 수 있는 컴퓨터 사용(computer use) 기능이 공개 베타로 새롭게 도입
기존 가격과 속도를 유지하면서 전반적인 성능이 향상됨

Computer Use 기능 소개

개발자들이 API를 통해 Claude가 실제 사람처럼 컴퓨터를 사용하도록 지시할 수 있음
화면 보기, 커서 이동, 버튼 클릭, 텍스트 입력 등의 작업 수행 가능
현재는 실험적 단계로 때때로 불편하고 오류가 발생할 수 있음
Asana, Canva, Cognition, DoorDash, Replit 및 The Browser Company는 이미 수십 단계, 때로는 수백 단계가 필요한 작업을 수행하기 위해 이러한 가능성을 탐색하기 시작함

Claude 3.5 Sonnet: 업계 최고 수준의 소프트웨어 엔지니어링 기술

업데이트된 Claude 3.5 Sonnet은 업계 벤치마크에서 광범위한 개선을 보여주며, 특히 에이전트 코딩 및 도구 사용 작업에서 강력한 성능 향상을 보임
SWE-bench Verified에서 33.4%에서 49.0%로 성능이 향상되어 공개적으로 사용 가능한 모든 모델보다 높은 점수를 기록함
TAU-bench에서도 소매 도메인에서 62.6%에서 69.2%로, 항공사 도메인에서는 36.0%에서 46.0%로 성능이 향상됨
GitLab, Cognition, The Browser Company 등 고객사의 초기 피드백에 따르면 Claude 3.5 Sonnet은 AI 기반 코딩에 상당한 도약을 나타냄

Claude 3.5 Haiku: 최첨단 기술과 경제성 및 속도 결합

Claude 3.5 Haiku는 가장 빠른 모델의 차세대 버전
이전 세대의 Haiku와 동일한 비용과 유사한 속도로 모든 기술 영역에서 개선되었으며, 이전 최대 모델인 Claude 3 Opus를 능가함
특히 코딩 작업에서 강점을 보이며 SWE-bench Verified에서 40.6%를 기록하여 기존 Claude 3.5 Sonnet과 GPT-4o를 포함한 공개 최첨단 모델을 사용하는 많은 에이전트를 능가함
낮은 지연 시간, 향상된 지침 따르기, 더 정확한 도구 사용 등의 특징으로 사용자 중심 제품, 전문 하위 에이전트 작업, 방대한 데이터에서 개인화된 경험 생성에 적합함

Claude에게 책임감 있게 컴퓨터를 탐색하는 방법 가르치기

컴퓨터 사용 기능을 통해 근본적으로 새로운 것을 시도하고 있음
개별 작업을 완료하는 데 도움이 되는 특정 도구를 만드는 대신 Claude에게 일반적인 컴퓨터 기술을 가르치고 있음
개발자들은 이러한 초기 기능을 사용하여 반복적인 프로세스를 자동화하고, 소프트웨어를 구축 및 테스트하며, 연구와 같은 개방형 작업을 수행할 수 있음
OSWorld에서 Claude 3.5 Sonnet은 스크린샷 전용 범주에서 14.9%를 기록하여 차선의 AI 시스템 점수인 7.8%를 크게 앞섬
컴퓨터 사용 기능은 아직 불완전하며, 스팸, 잘못된 정보, 사기 등의 위협에 대한 새로운 경로가 될 수 있으므로 안전 배포를 위해 선제적인 접근 방식을 취하고 있음

Computer Use의 향후 전망

초기 단계에 있는 이 기술의 초기 배포에서 배우는 것은 점점 더 강력해지는 AI 시스템의 잠재력과 영향을 더 잘 이해하는 데 도움이 될 것임
새로운 모델과 컴퓨터 사용 기능의 공개 베타 버전을 탐색해 보고 피드백을 공유해 주기를 바람
이러한 개발이 Claude와 협업하는 방식에 새로운 가능성을 열어줄 것이라 믿음

GN⁺의 의견

컴퓨터 사용 기능은 RPA(Robotic Process Automation)와 유사하지만, 더 유연하고 general한 접근 방식을 제공하는 것으로 보임
기업들의 반복적인 업무 자동화에 큰 도움이 될 것으로 예상되나, 초기에는 오류 발생 가능성을 고려하여 중요도가 낮은 작업부터 시작하는 것이 바람직함
이러한 기능은 Power Automate, UiPath 등 기존 RPA 도구들과 경쟁하게 될 것으로 예상되며, 향후 AI와 RPA의 경계가 더욱 모호해질 것으로 전망됨
보안 측면에서 컴퓨터 제어 권한을 AI에게 부여하는 것은 새로운 위험을 초래할 수 있으므로, 엄격한 접근 제어와 모니터링이 필요할 것으로 판단됨

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

GN⁺ 2024-10-23 [-]

Hacker News 의견

Sonnet이 aider의 코드 편집 리더보드에서 84.2%로 1위를 차지함. "architect" 모드를 사용하면 SOTA를 85.7%로 설정함. DeepSeek을 "editor" 모델로 사용함
- Sonnet이 더 까다로운 리팩토링 벤치마크에서도 92.1%로 SOTA를 기록함
Claude 3.5 Opus가 더 이상 Anthropic의 공식 문서에 언급되지 않음. 이는 출시가 지연되었거나 취소되었음을 시사함
AI SaaS 제품을 개발하는 사람으로서, API 통합이 AI 자동화의 대부분을 해결할 것이라고 생각했으나, 실제로는 많은 소프트웨어가 사람과 직접 인터페이스함을 깨달음
- 예를 들어, 의사인 매형은 Windows에서 MFC 폼을 사용하는 맞춤형 소프트웨어를 사용하고, 회계사는 Cantax라는 강력한 소프트웨어를 사용함
- SaaS 공간에 있으면 모든 사람이 클라이언트-서버 백엔드 API를 가져야 한다고 믿게 되지만, 실제로는 그렇지 않음
컴퓨터 사용 능력이 매우 인상적임
- 이는 단순히 컴퓨터를 도구로 사용하는 에이전트가 아니라, 목표를 설정하면 이를 달성하기 위해 컴퓨터와 브라우저를 활용하는 자율적 추론 에이전트임
- OpenAI GPT-o1을 능가할 가능성이 있음
Anthropic의 AI 안전성에 대한 초점이 흥미로움. AI가 컴퓨터와 브라우저를 사용하여 요청된 목표를 달성할 수 있는 능력을 가짐
Claude가 지난 8개월 동안 ChatGPT보다 우수했지만, 사용자 기반은 적음
Sonnet과 Opus의 차이가 명확하지 않음. Anthropic 웹사이트에서는 Opus가 가장 발전된 모델이라고 하지만, 다른 부분에서는 Sonnet이 가장 빠르고 발전된 모델이라고 함
- 수동 테스트 결과 Opus가 약간 더 나은 응답을 제공한다고 느꼈으나, 확신할 수 없음
Claude를 사용한 코딩 데모가 더 많은 논의가 필요함
- 진정한 최종 사용자 프로그래밍과 제품 관리자 프로그래밍이 곧 도래할 가능성이 있음
새로운 API로 훈련 중 재미있는 일이 발생함
- Claude가 장시간의 화면 녹화를 중지하여 모든 영상을 잃어버리거나, 코딩 데모 중에 Yellowstone 국립공원의 사진을 보는 등의 일이 있었음

답변달기

Anthropic, Computer Use 기능과 Claude 3.5 Sonnet/Haiku 모델 공개

Computer Use 기능 소개

Claude 3.5 Sonnet: 업계 최고 수준의 소프트웨어 엔지니어링 기술

Claude 3.5 Haiku: 최첨단 기술과 경제성 및 속도 결합

Claude에게 책임감 있게 컴퓨터를 탐색하는 방법 가르치기

Computer Use의 향후 전망

GN⁺의 의견

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견