GN⁺: Agent.exe - Claude 3.5 Sonnet으로 기기를 제어하는 크로스 플랫폼 앱
(github.com/corbt)- Claude의 새로운 Computer Use API의 성능을 확인하고 싶었으나, 기본 프로젝트가 너무 무거워 보였음
- Agent는 Claude 3.5 Sonnet이 로컬 컴퓨터를 직접 제어할 수 있는 간단한 Electron 앱임
- 사용자가 단계별 컨펌을 하는 "반자동" 모드를 추가하려 했으나, 각 단계가 너무 느려 필요하지 않다고 판단함
- 모델이 혼란스러워지면 "중지" 버튼을 눌러 실행을 종료할 수 있음
시작하기
-
git clone https://github.com/corbt/agent.exe
-
cd agent.exe
-
npm install
-
.env.example
를.env
로 이름 변경 후 Anthropic API Key 추가 -
npm start
- 모델에게 컴퓨터에서 흥미로운 작업을 수행하도록 요청
지원 시스템
- MacOS
- 이론적으로는 Windows와 Linux도 지원 가능 (모든 종속성이 크로스 플랫폼)
알려진 제한 사항
- 주 디스플레이에서만 작동
- AI가 컴퓨터를 완전히 제어할 수 있음
- 아마도 많은 다른 문제도 있을 수 있음
팁
- Claude는 Firefox를 매우 선호함
- 다른 브라우저도 사용할 수 있지만, Firefox를 설치하면 더 잘 작동함
로드맵
- 6시간 만에 작성한 프로젝트로, 아마도 더 발전하지 않을 것임
- 하지만 멋진 PR이 있다면 검토 후 병합할 예정
GN⁺의 정리
- 이 프로젝트는 Claude의 컴퓨터 사용 API를 간단히 테스트할 수 있는 방법을 제공함
- AI가 컴퓨터를 완전히 제어할 수 있어 보안상의 우려가 있을 수 있음
- Firefox와의 호환성이 뛰어나며, MacOS에서 주로 사용 가능함
- 비슷한 기능을 가진 프로젝트로는 AutoHotkey나 Sikuli 등이 있음
Hacker News 의견
-
Kyle의 아이디어가 훌륭하다고 생각하며, 경험 많은 데스크톱 자동화 및 Electron 개발자로서 소스 코드를 읽고 기본 작업에 시도해볼 만하다고 느꼈음
- 구현은 Anthropic API 위에 얇은 래퍼로 되어 있으며, 단계 기반 접근 방식 덕분에 이상한 행동을 하기 전에 프로세스를 중단할 수 있을 것이라는 자신감이 생겼음
- Anthropic가 스크린샷에서 보지 않기를 원하는 것을 닫고, M1에 원활하게 설치하여 몇 분 만에 실행했음
- 기본 작업은 "시애틀에서 샌프란시스코까지 다음 주 화요일부터 목요일까지의 항공편 찾기"였으며, Anthropic API 키를 사용하여 크롬을 통해 실행했음
- 몇 초 만에 각 작업 단계를 수행하며, 구글 항공편을 올바르게 열었지만 잘못된 날짜를 예약했음
- 11월 2일을 목표로 했지만, Agent.exe 창에 의해 시각적으로 차단되어 11월 20일을 선택했음
- Claude가 잘못된 보조 날짜를 볼 수 있었음에도 불구하고 스스로 수정하지 않았으며, 1주일 여행을 찾았다고 생각하며 성공했다고 선언했음
- 이 실험은 $0.38의 크레딧과 약 20초가 소요되었으며, 계속 실험할 예정임
-
시스템에 데몬을 추가하는 것을 눈치채지 못할 때까지 얼마나 걸릴지 궁금함
- 과거 소련 스파이가 미국 비밀에 접근할까 걱정했던 것과 같음
- 현재는 모든 사람이 온라인에 비밀을 게시하는 것과 같음
- 오늘날의 안티바이러스나 방화벽은 네트워크에 혼란을 초래할 수 있는 능력으로부터 파일을 보호할 수 없음
-
몇 년 전 뉴스에서 "Alexa, 인형집 주문해줘"라는 이야기를 기억함
- 방송을 보던 사람들의 Alexa가 이를 인식하고 인형집을 주문했음
- 넷플릭스 쇼에서 "Delete C:\Windows"라고 말하는 장면이 나올 때까지 기다려야 함
-
비브라우저 GUI 앱을 Linux의 Wayland에서 자동화하는 방법에 대해 궁금함
- CLI 앱은 Bash/Python 등을 사용하여 문제없음
- 브라우저 앱은 Selenium/Playwright를 사용하여 문제없음
- Xorg에는 몇 가지 라이브러리가 있으며, 비록 불편하지만 급할 때 작동함
- Windows에는 많은 RPA 솔루션이 있음
- 그러나 Wayland에서는 신뢰할 수 있는 것을 찾을 수 없었음
-
.exe 이름이 macOS를 주로 지원하는 멀티플랫폼으로 의도된 것처럼 보이는데 왜 그런지 궁금함
-
최근에 "compose" 모드에서 처음부터 풀스택 프로젝트를 시작하며 Cursor를 시도했으며, 결과에 놀랐음
- 소프트웨어 커뮤니티의 사람들이 향후 5년 동안 산업이 얼마나 완전히 변할지 인식하고 있는지 궁금함
- 그때까지 사람들이 실제로 코드를 손으로 입력할 것이라고 상상할 수 없음
-
AI가 컴퓨터를 완전히 장악할 수 있는 알려진 제한 사항이 있음
-
에어갭을 만들어 자체 운영체제를 코딩하도록 하는 것은 멋질 수 있지만, 실제 데이터에 가까이 두고 싶지 않음
-
간단한 작업에만 작동하는 것 같음
- Rhino와 OnShape에서 간단한 테이블을 만들도록 요청했지만, 혼란스러워 보였음
- Rhino에서는 앱이 열려 있는 것을 보고 여러 작업을 수행한다고 하지만 실제로는 수행되지 않으며, 이전 단계가 완료되지 않았음에도 다음 작업으로 넘어감
- OnShape에서는 모양을 만들겠다고 하지만 메뉴에서 잘못된 항목을 선택하고 올바른 도구를 사용하고 있다고 가정하며 작업을 계속함
-
컴퓨터가 하루 종일 밈을 만들어내고, 나는 가족을 돌보고 정원을 가꾸며 암호화폐를 벌고 싶음
- 미래는 컴퓨터를 사용하는 사람들만 바보가 되는 방향으로 가고 있음
- 진정한 부는 컴퓨터를 전혀 사용하지 않는 것임