39P by xguru 2022-08-15 | favorite | 댓글 6개

HN의 질문에 대한 답변들

  • Playwright : JS실행이 필요한 웹페이지가 많아져서, 브라우저 자동화 도구가 편함
  • Beautiful Soup : 다양한 스크래핑 앱 만들기 편한 파이썬 패키지
  • 쉘에서 cURL + pup(마크업)/cskit(CSV)/jq(JSON)/psql(DB)
  • Browserflow : 웹 브라우저 기반의 작업 자동화 도구
  • curl-impersonate : 브라우저 처럼 웹사이트를 가져오는 포크버전
  • Helium : 더 사용하기 편한 Selenium-Python
  • undetected_chromedriver : CloudFlare 봇 체크를 통과하는 커스텀 Selenium Chromedriver
  • estela : 쿠버네티스에서 동작하는 elastic web scraping cluster

puppeteer팀이 ms로 흡수되면서 그대로 playwright이 됐다고 들었습니다

Playwright, Scrapy 같은 툴들이 개발사 측에서 유지보수를 잘 해줘서 좋은 것 같아요.
개인적으로는 scrapy-playwright 플러그인을 많이 사용하고 있습니다.

Peppeteer가 안보이는걸 보니 Playwright로 많이들 넘어갔나보군요

댓글에서도 실제 사용해본 사람들은 대부분 Playwright 가 좋다고 얘기하네요.

Playwright 한표요

Cloudflare 의 HTMLRewriter 종종 씁니다