2022년 현재, 최고의 웹 스크래핑 도구는 무엇인가요?
(news.ycombinator.com)HN의 질문에 대한 답변들
- Playwright : JS실행이 필요한 웹페이지가 많아져서, 브라우저 자동화 도구가 편함
- Beautiful Soup : 다양한 스크래핑 앱 만들기 편한 파이썬 패키지
- 쉘에서 cURL + pup(마크업)/cskit(CSV)/jq(JSON)/psql(DB)
- Browserflow : 웹 브라우저 기반의 작업 자동화 도구
- curl-impersonate : 브라우저 처럼 웹사이트를 가져오는 포크버전
- Helium : 더 사용하기 편한 Selenium-Python
- undetected_chromedriver : CloudFlare 봇 체크를 통과하는 커스텀 Selenium Chromedriver
- estela : 쿠버네티스에서 동작하는 elastic web scraping cluster
Playwright, Scrapy 같은 툴들이 개발사 측에서 유지보수를 잘 해줘서 좋은 것 같아요.
개인적으로는 scrapy-playwright 플러그인을 많이 사용하고 있습니다.