# Skyvern (YC S23) – 브라우저 자동화를 위한 오픈소스 AI 에이전트

> Clean Markdown view of GeekNews topic #17422. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=17422](https://news.hada.io/topic?id=17422)
- GeekNews Markdown: [https://news.hada.io/topic/17422.md](https://news.hada.io/topic/17422.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-10-25T18:33:28+09:00
- Updated: 2024-10-25T18:33:28+09:00
- Original source: [github.com/Skyvern-AI](https://github.com/Skyvern-AI/Skyvern)
- Points: 4
- Comments: 1

## Topic Body

- LLM과 컴퓨터 비전을 사용하여 브라우저 기반 워크플로우를 자동화하는 도구  
- 기존의 자동화 솔루션은 웹사이트 레이아웃 변경 시 쉽게 깨질 수 있는 DOM 파싱과 XPath 기반 상호작용에 의존했으나, Skyvern은 실시간으로 뷰포트의 항목을 분석하고 상호작용 계획을 수립하여 이를 수행  
- **장점**:  
  - 새로운 웹사이트에서도 작동 가능하며, 맞춤형 코드 없이 시각적 요소를 작업에 필요한 동작으로 매핑할 수 있음.  
  - 웹사이트 레이아웃 변경에 강하며, 사전 정의된 XPath나 선택자를 사용하지 않음.  
  - 단일 워크플로우를 여러 웹사이트에 적용 가능하며, 복잡한 상황에서도 상호작용을 통해 문제를 해결할 수 있음.  
  
### 작동 방식  
  
- **에이전트 시스템**: Skyvern은 여러 에이전트를 사용하여 웹사이트를 이해하고 작업을 계획 및 실행함.  
  - **상호작용 가능한 요소 에이전트**: 웹사이트의 HTML을 분석하고 상호작용 가능한 요소를 추출함.  
  - **네비게이션 에이전트**: 작업을 완료하기 위한 네비게이션을 계획함.  
  - **데이터 추출 에이전트**: 웹사이트에서 데이터를 추출함.  
  - **비밀번호 에이전트**: 비밀번호 양식을 채움.  
  - **2FA 에이전트**: 2FA 양식을 채움.  
  - **동적 자동 완성 에이전트**: 동적 자동 완성 양식을 채움.  
  
### Skyvern Cloud  
  
- **클라우드 버전**: Skyvern의 관리형 클라우드 버전은 인프라를 관리하지 않고도 여러 Skyvern 인스턴스를 병렬로 실행하여 워크플로우를 대규모로 자동화할 수 있음. 또한, 봇 탐지 방지 메커니즘, 프록시 네트워크, CAPTCHA 해결 기능이 포함되어 있음.  
  
### Skyvern 작업 및 워크플로우  
  
- **작업**: Skyvern의 기본 빌딩 블록으로, 특정 목표를 달성하기 위해 웹사이트를 탐색하도록 지시함.  
- **워크플로우**: 여러 작업을 연결하여 하나의 작업 단위로 구성함. 예를 들어, 전자 상거래 스토어에서 제품을 자동으로 구매하는 프로세스를 자동화할 수 있음.

## Comments



### Comment 30404

- Author: neo
- Created: 2024-10-25T18:33:28+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=41936745) 
- Anthropic의 Claude의 "컴퓨터 사용" 기능 발표에 대한 관심과 Skyvern의 차별점에 대한 질문이 있음
  - Claude의 새로운 기능과 비교하여 Skyvern의 차별점이 무엇인지 궁금해함

- Playwright를 활용한 AI 래퍼가 최근 많이 등장했음을 언급함
  - BPA(비즈니스 프로세스 자동화)에서의 사용이 테스트 자동화보다 더 매력적이라고 생각함
  - 테스트 자동화는 정확성과 반복 가능성이 중요하지만, BPA는 결과만 중요함

- Skyvern의 예시 비디오에서 많은 프롬프트 작성과 평문 데이터 사용에 대한 우려를 표함
  - Playwright의 코드 생성보다 기술적이지 않다고 주장하지만, 이를 관리할 수 있는 사람은 많지 않다고 생각함
  - 웹사이트 로그인 정보와 신용카드 정보를 평문으로 전달하는 것에 대한 보안 우려가 있음

- 웹사이트 재설계 빈도가 과장되었다고 생각함
  - Playwright 자동화는 프로세스 변경 시 검증을 통해 업데이트 필요성을 알 수 있지만, Skyvern에서는 그 옵션이 보이지 않음

- 3자 LLM에 기반한 스타트업의 위험성을 언급함
  - Anthropic, OpenAI, Google과 같은 대기업의 참여로 경쟁이 치열해질 것임

- Skyvern의 AGPL 오픈 소스화에 대한 축하와 LangChain 통합 계획에 대한 질문이 있음
  - Skyvern의 사고/행동 논리를 구축하는 데 사용된 기술에 대한 궁금증을 표함

- "브라우저 자동화"의 개념을 설명함
  - Selenium과 유사하게 웹사이트를 조작하는 프로그램을 만드는 것임

- LLM 워크플로우 자동화 도구의 사용 사례와 장기적 결과에 대한 질문을 제기함
  - 도구 간 상호 운용성 부족을 해결하는지, 보안 조치를 우회하는지, 내부 도구 유지보수를 미루는 데 사용되는지 등의 질문을 던짐

- Skyvern이 복잡한 프로세스 위에 또 다른 복잡성을 추가하는 것인지에 대한 우려를 표함
  - 프로젝트가 유용할 것이라고 생각하지만, 장기적 효과에 대한 의문을 가짐

- Skyvern을 modal.com에서 실행해본 적이 있는지에 대한 질문이 있음

- WebArena와 VisualWebArena의 성능에 대한 질문이 있음

- Cloudflare가 Skyvern을 차단할 가능성에 대한 질문이 있음

- Skyvern을 항공사 웹사이트에서 실행해본 경험이 있는지에 대한 질문이 있음
  - 항공사 웹사이트는 자주 변경되고 스크래핑 방지 조치가 강력함
