# Anthropic, Computer Use 기능과 Claude 3.5 Sonnet/Haiku 모델 공개

> Clean Markdown view of GeekNews topic #17378. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=17378](https://news.hada.io/topic?id=17378)
- GeekNews Markdown: [https://news.hada.io/topic/17378.md](https://news.hada.io/topic/17378.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-10-23T09:42:07+09:00
- Updated: 2024-10-23T09:42:07+09:00
- Original source: [anthropic.com](https://www.anthropic.com/news/3-5-models-and-computer-use)
- Points: 10
- Comments: 1

## Summary

Anthropic이 발표한 Claude 3.5 Sonnet과 Haiku 모델은 업계 최고 수준의 소프트웨어 엔지니어링 기술과 경제성을 결합하여 성능을 크게 향상시켰습니다. 특히, Computer 기능을 통해 Claude가 사람처럼 컴퓨터를 조작할 수 있게 되어 반복적인 업무 자동화에 큰 도움이 될 것으로 기대됩니다. 이러한 기술 발전은 AI와 RPA의 경계를 모호하게 만들며, 새로운 가능성을 열어줄 것입니다.

## Topic Body

- Anthropic에서 업그레이드된 Claude 3.5 Sonnet과 새로운 모델인 Claude 3.5 Haiku를 발표함  
- Claude에게 사람처럼 컴퓨터를 사용하도록 지시할 수 있는 컴퓨터 사용(computer use) 기능이 공개 베타로 새롭게 도입  
- 기존 가격과 속도를 유지하면서 전반적인 성능이 향상됨  
  
### Computer Use 기능 소개  
- 개발자들이 API를 통해 Claude가 실제 사람처럼 컴퓨터를 사용하도록 지시할 수 있음  
- 화면 보기, 커서 이동, 버튼 클릭, 텍스트 입력 등의 작업 수행 가능  
- 현재는 실험적 단계로 때때로 불편하고 오류가 발생할 수 있음  
- Asana, Canva, Cognition, DoorDash, Replit 및 The Browser Company는 이미 수십 단계, 때로는 수백 단계가 필요한 작업을 수행하기 위해 이러한 가능성을 탐색하기 시작함  
  
### Claude 3.5 Sonnet: 업계 최고 수준의 소프트웨어 엔지니어링 기술  
  
- 업데이트된 Claude 3.5 Sonnet은 업계 벤치마크에서 광범위한 개선을 보여주며, 특히 에이전트 코딩 및 도구 사용 작업에서 강력한 성능 향상을 보임  
- SWE-bench Verified에서 33.4%에서 49.0%로 성능이 향상되어 공개적으로 사용 가능한 모든 모델보다 높은 점수를 기록함  
- TAU-bench에서도 소매 도메인에서 62.6%에서 69.2%로, 항공사 도메인에서는 36.0%에서 46.0%로 성능이 향상됨  
- GitLab, Cognition, The Browser Company 등 고객사의 초기 피드백에 따르면 Claude 3.5 Sonnet은 AI 기반 코딩에 상당한 도약을 나타냄  
  
### Claude 3.5 Haiku: 최첨단 기술과 경제성 및 속도 결합  
  
- Claude 3.5 Haiku는 가장 빠른 모델의 차세대 버전  
- 이전 세대의 Haiku와 동일한 비용과 유사한 속도로 모든 기술 영역에서 개선되었으며, 이전 최대 모델인 Claude 3 Opus를 능가함   
- 특히 코딩 작업에서 강점을 보이며 SWE-bench Verified에서 40.6%를 기록하여 기존 Claude 3.5 Sonnet과 GPT-4o를 포함한 공개 최첨단 모델을 사용하는 많은 에이전트를 능가함  
- 낮은 지연 시간, 향상된 지침 따르기, 더 정확한 도구 사용 등의 특징으로 사용자 중심 제품, 전문 하위 에이전트 작업, 방대한 데이터에서 개인화된 경험 생성에 적합함  
  
### Claude에게 책임감 있게 컴퓨터를 탐색하는 방법 가르치기  
  
- 컴퓨터 사용 기능을 통해 근본적으로 새로운 것을 시도하고 있음  
- 개별 작업을 완료하는 데 도움이 되는 특정 도구를 만드는 대신 Claude에게 일반적인 컴퓨터 기술을 가르치고 있음  
- 개발자들은 이러한 초기 기능을 사용하여 반복적인 프로세스를 자동화하고, 소프트웨어를 구축 및 테스트하며, 연구와 같은 개방형 작업을 수행할 수 있음  
- OSWorld에서 Claude 3.5 Sonnet은 스크린샷 전용 범주에서 14.9%를 기록하여 차선의 AI 시스템 점수인 7.8%를 크게 앞섬  
- 컴퓨터 사용 기능은 아직 불완전하며, 스팸, 잘못된 정보, 사기 등의 위협에 대한 새로운 경로가 될 수 있으므로 안전 배포를 위해 선제적인 접근 방식을 취하고 있음  
  
### Computer Use의 향후 전망  
  
- 초기 단계에 있는 이 기술의 초기 배포에서 배우는 것은 점점 더 강력해지는 AI 시스템의 잠재력과 영향을 더 잘 이해하는 데 도움이 될 것임   
- 새로운 모델과 컴퓨터 사용 기능의 공개 베타 버전을 탐색해 보고 피드백을 공유해 주기를 바람  
- 이러한 개발이 Claude와 협업하는 방식에 새로운 가능성을 열어줄 것이라 믿음  
  
### GN⁺의 의견  
- 컴퓨터 사용 기능은 RPA(Robotic Process Automation)와 유사하지만, 더 유연하고 general한 접근 방식을 제공하는 것으로 보임  
- 기업들의 반복적인 업무 자동화에 큰 도움이 될 것으로 예상되나, 초기에는 오류 발생 가능성을 고려하여 중요도가 낮은 작업부터 시작하는 것이 바람직함  
- 이러한 기능은 Power Automate, UiPath 등 기존 RPA 도구들과 경쟁하게 될 것으로 예상되며, 향후 AI와 RPA의 경계가 더욱 모호해질 것으로 전망됨  
- 보안 측면에서 컴퓨터 제어 권한을 AI에게 부여하는 것은 새로운 위험을 초래할 수 있으므로, 엄격한 접근 제어와 모니터링이 필요할 것으로 판단됨

## Comments


### Comment 30300

- Author: neo
- Created: 2024-10-23T09:42:07+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=41914989) 
- Sonnet이 aider의 코드 편집 리더보드에서 84.2%로 1위를 차지함. "architect" 모드를 사용하면 SOTA를 85.7%로 설정함. DeepSeek을 "editor" 모델로 사용함
  - Sonnet이 더 까다로운 리팩토링 벤치마크에서도 92.1%로 SOTA를 기록함
- Claude 3.5 Opus가 더 이상 Anthropic의 공식 문서에 언급되지 않음. 이는 출시가 지연되었거나 취소되었음을 시사함
- AI SaaS 제품을 개발하는 사람으로서, API 통합이 AI 자동화의 대부분을 해결할 것이라고 생각했으나, 실제로는 많은 소프트웨어가 사람과 직접 인터페이스함을 깨달음
  - 예를 들어, 의사인 매형은 Windows에서 MFC 폼을 사용하는 맞춤형 소프트웨어를 사용하고, 회계사는 Cantax라는 강력한 소프트웨어를 사용함
  - SaaS 공간에 있으면 모든 사람이 클라이언트-서버 백엔드 API를 가져야 한다고 믿게 되지만, 실제로는 그렇지 않음
- 컴퓨터 사용 능력이 매우 인상적임
  - 이는 단순히 컴퓨터를 도구로 사용하는 에이전트가 아니라, 목표를 설정하면 이를 달성하기 위해 컴퓨터와 브라우저를 활용하는 자율적 추론 에이전트임
  - OpenAI GPT-o1을 능가할 가능성이 있음
- Anthropic의 AI 안전성에 대한 초점이 흥미로움. AI가 컴퓨터와 브라우저를 사용하여 요청된 목표를 달성할 수 있는 능력을 가짐
- Claude가 지난 8개월 동안 ChatGPT보다 우수했지만, 사용자 기반은 적음
- Sonnet과 Opus의 차이가 명확하지 않음. Anthropic 웹사이트에서는 Opus가 가장 발전된 모델이라고 하지만, 다른 부분에서는 Sonnet이 가장 빠르고 발전된 모델이라고 함
  - 수동 테스트 결과 Opus가 약간 더 나은 응답을 제공한다고 느꼈으나, 확신할 수 없음
- Claude를 사용한 코딩 데모가 더 많은 논의가 필요함
  - 진정한 최종 사용자 프로그래밍과 제품 관리자 프로그래밍이 곧 도래할 가능성이 있음
- 새로운 API로 훈련 중 재미있는 일이 발생함
  - Claude가 장시간의 화면 녹화를 중지하여 모든 영상을 잃어버리거나, 코딩 데모 중에 Yellowstone 국립공원의 사진을 보는 등의 일이 있었음