- Anthropic의 Computer Use API를 사용해본 결과,
- 느리고 신뢰할 수 없으며 컴퓨터를 장악하기 쉽지만, "엄청나게 흥미로움"
- Claude Computer는 비전이 모든 것을 묶는 API이기 때문에, 언제나 무언가를 할 수 있어 진정한 '에이전트' 경험을 느낄 수 있게 해줌
어떻게 작동하는가?
- Claude Computer Use는 기본적으로 컴퓨터 상호작용 데이터로 파인튜닝된 Claude3.5로 보임
- 다른 모델보다 컴퓨터와 그 안에 있는 것의 스크린샷을 훨씬 더 잘 이해함
[잘하는 것]
화면 읽기 및 탐색(상대적으로)
- Claude가 스크린샷의 내용을 잘못 읽는 것을 거의 본 적이 없음
- 다른 AI에 비해
(500,250) 위치의 입력창을 클릭하세요
같은 좌표를 아는 데 꽤 능숙함(화면 크기에 따라 약간 빗나갈 수는 있음)
함수 호출
- 함수 호출은 구조화된 출력보다 엄격하게 나쁘다고 생각하는 데 익숙했는데, Claude Computer는 함수 호출을 잘 사용함
- 예를 들어 웹사이트로 즉시 이동할 수 있는 브라우저 도구 함수가 주어지면, 브라우저 아이콘을 클릭하는 대신 그 함수를 선호함
단계별 사고
- 작업을 분해하라고 요청하면, Claude는 보통 수행해야 할 단계를 파악하고 시작하는 데 꽤 능숙함
[잘못하는 것]
화면을 읽어야 할 때를 아는 것
- 스크린샷을 찍는 것은 비용이 많이 들기 때문에, AI는 자신의 조작이 성공했다고 가정하는 경향이 있음
- 예를 들어 필드에 입력하지만 포커스가 없으면, 나중에 그것을 감지하기가 매우 어려움. OS 함수 호출은 의도한 결과가 실제로 발생했는지 매우 정확하게 설명해야 함
- 이것이 Claude가 가장 자주 멈추는 방식임. 새 스크린샷을 찍을 때쯤이면 자신의 진행 상황을 모름
더 많은 데이터 가져오기
- 가장 가까운 샤와르마(중동요리) 가게 3곳을 찾으라고 하면, Claude는 구글 맵에 '샤와르마'를 입력하고 상위 3개 결과를 선택할 것임
- 클릭해야 한다면 거의 절대 메뉴에서 먼저 '거리순으로 정렬'하지 않음
- 더 나은 프롬프트 구조로 해결될 수 있음
상태 기억하기
- Computer Use에서는 프로그램 상태의 더 많은 부분이 이미지에 저장되는데, 이를 회상하는 데 더 취약해 보임
- 이전에 열었던 탭이나 변경한 애플리케이션 등 과거에 했던 일에도 적용됨
- Claude에게 가능한 한 텍스트로 관련 상태를 출력하고 도구로 시스템 상태를 제공하는 게 좋음
모달과 팝업 탐색
- Claude는 모달과 팝업에 가장 자주 혼란스러워하며, 그것들을 클릭해서 벗어나는 방법을 모르거나 올바른 상태가 아님을 인식하지 못함
[무엇이 필요한가?]
가능한 한 많은 시스템 상태 제공
- 이상적으로는 Claude Computer가 절대적으로 필요할 때만 비전을 사용하기를 원함
- 비전을 사용하지 않고 쉽게 상태를 이해할 수 있는 도구를 제공하면 더 빠르게 움직이고 명확하게 생각할 수 있음
- 다음과 같은 것들을 제공하는 것이 매우 도움됨:
- 열려 있는 애플리케이션 목록
- 어떤 애플리케이션에 활성 포커스가 있는지
- 애플리케이션 내부에서 무엇에 포커스가 있는지
- 해당 애플리케이션을 특별히 탐색하기 위한 가능한 한 많은 함수 호출
- 특히 브라우저 도구가 중요함(예: 특정 URL로 이동하거나 검색하기 위해)
불확실성을 처리하는 방법
- 이것이 에이전트 개발의 가장 큰 미해결 문제임
- 에이전트에 대해 가장 중요한 것은 신뢰이고, 신뢰는 입력과 피드백이 필요함
- 테스트 중 Claude가 무엇을 해야 할지 모르는 것이 분명한 경우가 여러 번 있었고, 그때 중단하거나 묻는 대신 강행했음
- AI가 질문하거나 막혔을 때 추론하도록 만들기 위해 질문 도구를 만드는 데 꽤 오랜 시간을 보냄. 그러나 거의 사용하지 않았음
- 이는 타당함. 함수 호출은 정보가 필요하다는 것을 알고 단지 그것을 검색해야 할 때 가장 좋음
- 그러나 불확실할 때를 아는 것은 다른 문제임. 에이전트 개발자는 AI가 자신의 불확실성을 보고할 것이라고 신뢰할 수 있어야 함
[앞으로 나아갈 길]
- Claude Computer Use 는 진정한 에이전트 행동으로 가는 첫걸음임
- 우리는 아직 이 현재 모델의 능력을 최대한 활용하지 못하고 있을 가능성이 높음
- 그러나 진정한 에이전트 경험을 만들기 위해서는 LLM 함수 호출 이상의 것이 필요할 것이 분명함