GN⁺: Stagehand - AI 기반 오픈 소스 브라우저 자동화 프레임워크
(github.com/browserbase)- Stagehand는 간단하고 확장 가능한 AI 웹 브라우징 프레임워크로, Playwright와 완벽하게 호환됨
-
act
,extract
,observe
라는 세 가지 간단한 AI API를 제공하여 자연어를 통해 웹 자동화를 가능하게 함 - 비기술 사용자에게도 접근성을 높이고 UI/DOM의 사소한 변경에 덜 취약하게 만듦
- 예시: Hacker News에서 상위 뉴스 추출, Amazon에서 AirPods 검색 및 구매, ESPN에서 Steph Curry의 최근 10경기 통계 검색
-
- 내구성 있고 성능이 좋은 브라우저 자동화 코드를 쉽게 작성할 수 있음.
- Browserbase와 함께 사용 시 세션 재생 및 단계별 디버깅과 같은 뛰어난 디버깅 도구 제공.
- Stagehand는 초기 릴리스 상태이며, 커뮤니티의 피드백을 적극적으로 수집 중임.
- MIT 라이선스
Hacker News 의견
-
Stagehand를 사용하여 페이지에서 데이터를 추출할 때, LLM을 사용하지 않고도 페이지를 다시 스크랩할 수 있는 xpath 요소를 반환하면 좋겠다는 의견이 있음
- 새로운 페이지를 스크랩할 때는 비결정론적 LLM 도구를 사용하고, 콘텐츠 업데이트를 위해 다시 스크랩할 때는 전통적인 스크래핑 방법을 사용할 수 있음
- LLM 버전에서 xcode 버전으로의 전환이 얼마나 안정적인지, xcode 스크립트가 실패할 경우 LLM 버전으로 되돌아갈 수 있는지에 대한 의문이 있음
- 스마트 도구를 사용하여 스크랩한 후, 시간이 지나면서 단순한 스크래핑 스크립트 라이브러리를 구축하는 것이 유용할 것이라는 의견이 있음
-
Stagehand가 Playwright 등을 대체해야 한다는 아이디어는 동의하지 않음
- 개인적으로 결정론적 Playwright 코드를 생성하는 중간 워크플로로 사용하고 싶지만, 이 도구는 직접 실행을 위한 것으로 보임
- 작업 중인 테스트 스위트에서 LLM을 런타임에 사용하는 것은 설득하기 어려울 것이라는 의견이 있음
-
비슷한 프레임워크를 사용하여 워크플로 자동화를 구현하려 했으나, 보이지 않는 캡차로 인해 중단되었음
- Playwright 인스턴스가 DOM과 상호작용하는 방식으로 인해 감지될 수 있음
- 크롤링과 스크래핑이 통제 불능 상태가 되어가고 있어 표준이 될 가능성이 있다고 봄
-
"create-browser-app"이라는 이름이 너무 일반적이며, "stagehand"로 명명했어야 한다는 의견이 있음
-
testdriver.ai를 위한 테스트 플랫폼을 구축하기 전에 Goodlooks라는 유사한 SDK를 만들었으나 큰 반응을 얻지 못했음
- 관심 있는 사람들을 위해 링크를 공유함
-
Stagehand를 사용해본 결과, 유용한 추상화임을 발견했음
- 적대적인 웹사이트에 대한 스크래퍼를 구축하는 데 있어 프록시와 캡차가 내장되어 있어 유용함
- MCP와 컴퓨터 사용에 대한 유사한 추상화를 할 계획이 있는지 궁금함
-
Stagehand의 브라우저 자동화를 DOM 변경에 더 강하게 만드는 것에 집중한 점이 마음에 듦
- act, extract, observe 메서드가 매우 깔끔함
- Lightpanda라는 오픈 소스 경량 헤드리스 브라우저를 추천함
-
기존의 열린 브라우저 탭을 자동화할 수 있는 가능성이 있는지 궁금함
-
Slack에서 이 팀의 놀라운 제품 개발 속도를 지켜보고 있으며, 앞으로의 발전이 기대됨
-
AI 메서드를 Playwright의 하위 메서드로 변환하는 방식으로 작동하는지, 그리고 변환된 실제 메서드를 디버그할 수 있는지 궁금함
- 테스트 실행마다 다른 명령이 나올 수 있는지, 아니면 결정론적 행동이 있는지에 대한 의문이 있음