1P by neo 22일전 | favorite | 댓글 1개
  • Claude의 새로운 Computer Use API의 성능을 확인하고 싶었으나, 기본 프로젝트가 너무 무거워 보였음
  • Agent는 Claude 3.5 Sonnet이 로컬 컴퓨터를 직접 제어할 수 있는 간단한 Electron 앱임
  • 사용자가 단계별 컨펌을 하는 "반자동" 모드를 추가하려 했으나, 각 단계가 너무 느려 필요하지 않다고 판단함
  • 모델이 혼란스러워지면 "중지" 버튼을 눌러 실행을 종료할 수 있음

시작하기

  • git clone https://github.com/corbt/agent.exe
  • cd agent.exe
  • npm install
  • .env.example.env로 이름 변경 후 Anthropic API Key 추가
  • npm start
  • 모델에게 컴퓨터에서 흥미로운 작업을 수행하도록 요청

지원 시스템

  • MacOS
  • 이론적으로는 Windows와 Linux도 지원 가능 (모든 종속성이 크로스 플랫폼)

알려진 제한 사항

  • 주 디스플레이에서만 작동
  • AI가 컴퓨터를 완전히 제어할 수 있음
  • 아마도 많은 다른 문제도 있을 수 있음

  • Claude는 Firefox를 매우 선호함
  • 다른 브라우저도 사용할 수 있지만, Firefox를 설치하면 더 잘 작동함

로드맵

  • 6시간 만에 작성한 프로젝트로, 아마도 더 발전하지 않을 것임
  • 하지만 멋진 PR이 있다면 검토 후 병합할 예정

GN⁺의 정리

  • 이 프로젝트는 Claude의 컴퓨터 사용 API를 간단히 테스트할 수 있는 방법을 제공함
  • AI가 컴퓨터를 완전히 제어할 수 있어 보안상의 우려가 있을 수 있음
  • Firefox와의 호환성이 뛰어나며, MacOS에서 주로 사용 가능함
  • 비슷한 기능을 가진 프로젝트로는 AutoHotkey나 Sikuli 등이 있음
Hacker News 의견
  • Kyle의 아이디어가 훌륭하다고 생각하며, 경험 많은 데스크톱 자동화 및 Electron 개발자로서 소스 코드를 읽고 기본 작업에 시도해볼 만하다고 느꼈음

    • 구현은 Anthropic API 위에 얇은 래퍼로 되어 있으며, 단계 기반 접근 방식 덕분에 이상한 행동을 하기 전에 프로세스를 중단할 수 있을 것이라는 자신감이 생겼음
    • Anthropic가 스크린샷에서 보지 않기를 원하는 것을 닫고, M1에 원활하게 설치하여 몇 분 만에 실행했음
    • 기본 작업은 "시애틀에서 샌프란시스코까지 다음 주 화요일부터 목요일까지의 항공편 찾기"였으며, Anthropic API 키를 사용하여 크롬을 통해 실행했음
    • 몇 초 만에 각 작업 단계를 수행하며, 구글 항공편을 올바르게 열었지만 잘못된 날짜를 예약했음
    • 11월 2일을 목표로 했지만, Agent.exe 창에 의해 시각적으로 차단되어 11월 20일을 선택했음
    • Claude가 잘못된 보조 날짜를 볼 수 있었음에도 불구하고 스스로 수정하지 않았으며, 1주일 여행을 찾았다고 생각하며 성공했다고 선언했음
    • 이 실험은 $0.38의 크레딧과 약 20초가 소요되었으며, 계속 실험할 예정임
  • 시스템에 데몬을 추가하는 것을 눈치채지 못할 때까지 얼마나 걸릴지 궁금함

    • 과거 소련 스파이가 미국 비밀에 접근할까 걱정했던 것과 같음
    • 현재는 모든 사람이 온라인에 비밀을 게시하는 것과 같음
    • 오늘날의 안티바이러스나 방화벽은 네트워크에 혼란을 초래할 수 있는 능력으로부터 파일을 보호할 수 없음
  • 몇 년 전 뉴스에서 "Alexa, 인형집 주문해줘"라는 이야기를 기억함

    • 방송을 보던 사람들의 Alexa가 이를 인식하고 인형집을 주문했음
    • 넷플릭스 쇼에서 "Delete C:\Windows"라고 말하는 장면이 나올 때까지 기다려야 함
  • 비브라우저 GUI 앱을 Linux의 Wayland에서 자동화하는 방법에 대해 궁금함

    • CLI 앱은 Bash/Python 등을 사용하여 문제없음
    • 브라우저 앱은 Selenium/Playwright를 사용하여 문제없음
    • Xorg에는 몇 가지 라이브러리가 있으며, 비록 불편하지만 급할 때 작동함
    • Windows에는 많은 RPA 솔루션이 있음
    • 그러나 Wayland에서는 신뢰할 수 있는 것을 찾을 수 없었음
  • .exe 이름이 macOS를 주로 지원하는 멀티플랫폼으로 의도된 것처럼 보이는데 왜 그런지 궁금함

  • 최근에 "compose" 모드에서 처음부터 풀스택 프로젝트를 시작하며 Cursor를 시도했으며, 결과에 놀랐음

    • 소프트웨어 커뮤니티의 사람들이 향후 5년 동안 산업이 얼마나 완전히 변할지 인식하고 있는지 궁금함
    • 그때까지 사람들이 실제로 코드를 손으로 입력할 것이라고 상상할 수 없음
  • AI가 컴퓨터를 완전히 장악할 수 있는 알려진 제한 사항이 있음

  • 에어갭을 만들어 자체 운영체제를 코딩하도록 하는 것은 멋질 수 있지만, 실제 데이터에 가까이 두고 싶지 않음

  • 간단한 작업에만 작동하는 것 같음

    • Rhino와 OnShape에서 간단한 테이블을 만들도록 요청했지만, 혼란스러워 보였음
    • Rhino에서는 앱이 열려 있는 것을 보고 여러 작업을 수행한다고 하지만 실제로는 수행되지 않으며, 이전 단계가 완료되지 않았음에도 다음 작업으로 넘어감
    • OnShape에서는 모양을 만들겠다고 하지만 메뉴에서 잘못된 항목을 선택하고 올바른 도구를 사용하고 있다고 가정하며 작업을 계속함
  • 컴퓨터가 하루 종일 밈을 만들어내고, 나는 가족을 돌보고 정원을 가꾸며 암호화폐를 벌고 싶음

    • 미래는 컴퓨터를 사용하는 사람들만 바보가 되는 방향으로 가고 있음
    • 진정한 부는 컴퓨터를 전혀 사용하지 않는 것임