GN⁺: Skyvern (YC S23) – 브라우저 자동화를 위한 오픈소스 AI 에이전트
(github.com/Skyvern-AI)- LLM과 컴퓨터 비전을 사용하여 브라우저 기반 워크플로우를 자동화하는 도구
- 기존의 자동화 솔루션은 웹사이트 레이아웃 변경 시 쉽게 깨질 수 있는 DOM 파싱과 XPath 기반 상호작용에 의존했으나, Skyvern은 실시간으로 뷰포트의 항목을 분석하고 상호작용 계획을 수립하여 이를 수행
-
장점:
- 새로운 웹사이트에서도 작동 가능하며, 맞춤형 코드 없이 시각적 요소를 작업에 필요한 동작으로 매핑할 수 있음.
- 웹사이트 레이아웃 변경에 강하며, 사전 정의된 XPath나 선택자를 사용하지 않음.
- 단일 워크플로우를 여러 웹사이트에 적용 가능하며, 복잡한 상황에서도 상호작용을 통해 문제를 해결할 수 있음.
작동 방식
-
에이전트 시스템: Skyvern은 여러 에이전트를 사용하여 웹사이트를 이해하고 작업을 계획 및 실행함.
- 상호작용 가능한 요소 에이전트: 웹사이트의 HTML을 분석하고 상호작용 가능한 요소를 추출함.
- 네비게이션 에이전트: 작업을 완료하기 위한 네비게이션을 계획함.
- 데이터 추출 에이전트: 웹사이트에서 데이터를 추출함.
- 비밀번호 에이전트: 비밀번호 양식을 채움.
- 2FA 에이전트: 2FA 양식을 채움.
- 동적 자동 완성 에이전트: 동적 자동 완성 양식을 채움.
Skyvern Cloud
- 클라우드 버전: Skyvern의 관리형 클라우드 버전은 인프라를 관리하지 않고도 여러 Skyvern 인스턴스를 병렬로 실행하여 워크플로우를 대규모로 자동화할 수 있음. 또한, 봇 탐지 방지 메커니즘, 프록시 네트워크, CAPTCHA 해결 기능이 포함되어 있음.
Skyvern 작업 및 워크플로우
- 작업: Skyvern의 기본 빌딩 블록으로, 특정 목표를 달성하기 위해 웹사이트를 탐색하도록 지시함.
- 워크플로우: 여러 작업을 연결하여 하나의 작업 단위로 구성함. 예를 들어, 전자 상거래 스토어에서 제품을 자동으로 구매하는 프로세스를 자동화할 수 있음.
Hacker News 의견
-
Anthropic의 Claude의 "컴퓨터 사용" 기능 발표에 대한 관심과 Skyvern의 차별점에 대한 질문이 있음
- Claude의 새로운 기능과 비교하여 Skyvern의 차별점이 무엇인지 궁금해함
-
Playwright를 활용한 AI 래퍼가 최근 많이 등장했음을 언급함
- BPA(비즈니스 프로세스 자동화)에서의 사용이 테스트 자동화보다 더 매력적이라고 생각함
- 테스트 자동화는 정확성과 반복 가능성이 중요하지만, BPA는 결과만 중요함
-
Skyvern의 예시 비디오에서 많은 프롬프트 작성과 평문 데이터 사용에 대한 우려를 표함
- Playwright의 코드 생성보다 기술적이지 않다고 주장하지만, 이를 관리할 수 있는 사람은 많지 않다고 생각함
- 웹사이트 로그인 정보와 신용카드 정보를 평문으로 전달하는 것에 대한 보안 우려가 있음
-
웹사이트 재설계 빈도가 과장되었다고 생각함
- Playwright 자동화는 프로세스 변경 시 검증을 통해 업데이트 필요성을 알 수 있지만, Skyvern에서는 그 옵션이 보이지 않음
-
3자 LLM에 기반한 스타트업의 위험성을 언급함
- Anthropic, OpenAI, Google과 같은 대기업의 참여로 경쟁이 치열해질 것임
-
Skyvern의 AGPL 오픈 소스화에 대한 축하와 LangChain 통합 계획에 대한 질문이 있음
- Skyvern의 사고/행동 논리를 구축하는 데 사용된 기술에 대한 궁금증을 표함
-
"브라우저 자동화"의 개념을 설명함
- Selenium과 유사하게 웹사이트를 조작하는 프로그램을 만드는 것임
-
LLM 워크플로우 자동화 도구의 사용 사례와 장기적 결과에 대한 질문을 제기함
- 도구 간 상호 운용성 부족을 해결하는지, 보안 조치를 우회하는지, 내부 도구 유지보수를 미루는 데 사용되는지 등의 질문을 던짐
-
Skyvern이 복잡한 프로세스 위에 또 다른 복잡성을 추가하는 것인지에 대한 우려를 표함
- 프로젝트가 유용할 것이라고 생각하지만, 장기적 효과에 대한 의문을 가짐
-
Skyvern을 modal.com에서 실행해본 적이 있는지에 대한 질문이 있음
-
WebArena와 VisualWebArena의 성능에 대한 질문이 있음
-
Cloudflare가 Skyvern을 차단할 가능성에 대한 질문이 있음
-
Skyvern을 항공사 웹사이트에서 실행해본 경험이 있는지에 대한 질문이 있음
- 항공사 웹사이트는 자주 변경되고 스크래핑 방지 조치가 강력함