# 2022년 현재, 최고의 웹 스크래핑 도구는 무엇인가요?

> Clean Markdown view of GeekNews topic #7184. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=7184](https://news.hada.io/topic?id=7184)
- GeekNews Markdown: [https://news.hada.io/topic/7184.md](https://news.hada.io/topic/7184.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2022-08-15T09:56:01+09:00
- Updated: 2022-08-15T09:56:01+09:00
- Original source: [news.ycombinator.com](https://news.ycombinator.com/item?id=32409632)
- Points: 39
- Comments: 6

## Topic Body

HN의 질문에 대한 답변들  
- Playwright : JS실행이 필요한 웹페이지가 많아져서, 브라우저 자동화 도구가 편함   
- Beautiful Soup : 다양한 스크래핑 앱 만들기 편한 파이썬 패키지  
- 쉘에서 cURL + pup(마크업)/cskit(CSV)/jq(JSON)/psql(DB)  
- Browserflow : 웹 브라우저 기반의 작업 자동화 도구   
- curl-impersonate : 브라우저 처럼 웹사이트를 가져오는 포크버전   
- Helium : 더 사용하기 편한 Selenium-Python   
- undetected_chromedriver : CloudFlare 봇 체크를 통과하는 커스텀 Selenium Chromedriver   
- estela : 쿠버네티스에서 동작하는 elastic web scraping cluster

## Comments



### Comment 11987

- Author: yangeok
- Created: 2022-08-24T09:23:11+09:00
- Points: 1

puppeteer팀이 ms로 흡수되면서 그대로 playwright이 됐다고 들었습니다

### Comment 11793

- Author: youth
- Created: 2022-08-15T11:36:59+09:00
- Points: 1

Playwright, Scrapy 같은 툴들이 개발사 측에서 유지보수를 잘 해줘서 좋은 것 같아요.  
개인적으로는 scrapy-playwright 플러그인을 많이 사용하고 있습니다.

### Comment 11792

- Author: vwjdalsgkv
- Created: 2022-08-15T10:53:59+09:00
- Points: 1

Peppeteer가 안보이는걸 보니 Playwright로 많이들 넘어갔나보군요

### Comment 11816

- Author: xguru
- Created: 2022-08-16T15:07:05+09:00
- Points: 2
- Parent comment: 11792
- Depth: 1

댓글에서도 실제 사용해본 사람들은 대부분 Playwright 가 좋다고 얘기하네요.

### Comment 11791

- Author: jjpark78
- Created: 2022-08-15T10:17:09+09:00
- Points: 1

Playwright 한표요

### Comment 11790

- Author: cometkim
- Created: 2022-08-15T09:59:28+09:00
- Points: 1

Cloudflare 의 HTMLRewriter 종종 씁니다
