Claude Computer Use - Vision은 궁극의 API인가?

(thariq.io)

4P by xguru 2024-10-28 | ★ favorite | 댓글과 토론

Anthropic의 Computer Use API를 사용해본 결과,
- 느리고 신뢰할 수 없으며 컴퓨터를 장악하기 쉽지만, "엄청나게 흥미로움"
Claude Computer는 비전이 모든 것을 묶는 API이기 때문에, 언제나 무언가를 할 수 있어 진정한 '에이전트' 경험을 느낄 수 있게 해줌

어떻게 작동하는가?

Claude Computer Use는 기본적으로 컴퓨터 상호작용 데이터로 파인튜닝된 Claude3.5로 보임
다른 모델보다 컴퓨터와 그 안에 있는 것의 스크린샷을 훨씬 더 잘 이해함

[잘하는 것]

화면 읽기 및 탐색(상대적으로)

Claude가 스크린샷의 내용을 잘못 읽는 것을 거의 본 적이 없음
다른 AI에 비해 (500,250) 위치의 입력창을 클릭하세요 같은 좌표를 아는 데 꽤 능숙함(화면 크기에 따라 약간 빗나갈 수는 있음)

함수 호출

함수 호출은 구조화된 출력보다 엄격하게 나쁘다고 생각하는 데 익숙했는데, Claude Computer는 함수 호출을 잘 사용함
예를 들어 웹사이트로 즉시 이동할 수 있는 브라우저 도구 함수가 주어지면, 브라우저 아이콘을 클릭하는 대신 그 함수를 선호함

단계별 사고

작업을 분해하라고 요청하면, Claude는 보통 수행해야 할 단계를 파악하고 시작하는 데 꽤 능숙함

[잘못하는 것]

화면을 읽어야 할 때를 아는 것

스크린샷을 찍는 것은 비용이 많이 들기 때문에, AI는 자신의 조작이 성공했다고 가정하는 경향이 있음
예를 들어 필드에 입력하지만 포커스가 없으면, 나중에 그것을 감지하기가 매우 어려움. OS 함수 호출은 의도한 결과가 실제로 발생했는지 매우 정확하게 설명해야 함
이것이 Claude가 가장 자주 멈추는 방식임. 새 스크린샷을 찍을 때쯤이면 자신의 진행 상황을 모름

더 많은 데이터 가져오기

가장 가까운 샤와르마(중동요리) 가게 3곳을 찾으라고 하면, Claude는 구글 맵에 '샤와르마'를 입력하고 상위 3개 결과를 선택할 것임
클릭해야 한다면 거의 절대 메뉴에서 먼저 '거리순으로 정렬'하지 않음
더 나은 프롬프트 구조로 해결될 수 있음

상태 기억하기

Computer Use에서는 프로그램 상태의 더 많은 부분이 이미지에 저장되는데, 이를 회상하는 데 더 취약해 보임
이전에 열었던 탭이나 변경한 애플리케이션 등 과거에 했던 일에도 적용됨
Claude에게 가능한 한 텍스트로 관련 상태를 출력하고 도구로 시스템 상태를 제공하는 게 좋음

모달과 팝업 탐색

Claude는 모달과 팝업에 가장 자주 혼란스러워하며, 그것들을 클릭해서 벗어나는 방법을 모르거나 올바른 상태가 아님을 인식하지 못함

[무엇이 필요한가?]

가능한 한 많은 시스템 상태 제공

이상적으로는 Claude Computer가 절대적으로 필요할 때만 비전을 사용하기를 원함
비전을 사용하지 않고 쉽게 상태를 이해할 수 있는 도구를 제공하면 더 빠르게 움직이고 명확하게 생각할 수 있음
다음과 같은 것들을 제공하는 것이 매우 도움됨:
- 열려 있는 애플리케이션 목록
- 어떤 애플리케이션에 활성 포커스가 있는지
- 애플리케이션 내부에서 무엇에 포커스가 있는지
- 해당 애플리케이션을 특별히 탐색하기 위한 가능한 한 많은 함수 호출
  - 특히 브라우저 도구가 중요함(예: 특정 URL로 이동하거나 검색하기 위해)

불확실성을 처리하는 방법

이것이 에이전트 개발의 가장 큰 미해결 문제임
에이전트에 대해 가장 중요한 것은 신뢰이고, 신뢰는 입력과 피드백이 필요함
테스트 중 Claude가 무엇을 해야 할지 모르는 것이 분명한 경우가 여러 번 있었고, 그때 중단하거나 묻는 대신 강행했음
AI가 질문하거나 막혔을 때 추론하도록 만들기 위해 질문 도구를 만드는 데 꽤 오랜 시간을 보냄. 그러나 거의 사용하지 않았음
이는 타당함. 함수 호출은 정보가 필요하다는 것을 알고 단지 그것을 검색해야 할 때 가장 좋음
그러나 불확실할 때를 아는 것은 다른 문제임. 에이전트 개발자는 AI가 자신의 불확실성을 보고할 것이라고 신뢰할 수 있어야 함

[앞으로 나아갈 길]

Claude Computer Use 는 진정한 에이전트 행동으로 가는 첫걸음임
우리는 아직 이 현재 모델의 능력을 최대한 활용하지 못하고 있을 가능성이 높음
그러나 진정한 에이전트 경험을 만들기 위해서는 LLM 함수 호출 이상의 것이 필요할 것이 분명함