26P by xguru 2021-10-05 | favorite | 댓글 1개

- 웹 스크래핑이란 ?
- 웹 스크래핑용 메인 프레임워크는 ?
ㅤ→ 파이썬 : Scrapy, Beautiful Soup, MechanicalSoup
ㅤ→ JS : Cheerio, Puppeteer, Apify SDK
ㅤ→ Java : Jaunt, jsoup
ㅤ→ Ruby : Kimurai
ㅤ→ PHP : Goutte
- 기업용 수준의 유료 웹 스크래핑 프레임워크들
ㅤ→ Scraper API : 프록시 로테이션, 캡차 풀기, 안티 봇 체크 지원
ㅤ→ Apify : 커뮤니티에 의해 개발된 수천개의 플러그인 제공
ㅤ→ Parsehub : 데스크탑 앱을 이용한 포인트 앤 클릭 방식 노코드 도구
ㅤ→ Diffbot : 웹에서 수집한 회사/리테일/뉴스/게시판/이벤트 등의 데이터에서 빅데이터/머신러닝을 통한 데이터 추출 지원
ㅤ→ Octoparse : Parsehub처럼 포인트 앤 클릭 방식. IP로테이션 및 정규식 도구를 이용한 데이터 정제, 대용량 스크래핑등을 지원
ㅤ→ ScrapingBee : 복잡한 기능을 제공하는 노 코딩 도구
- 파이썬 웹 스크래핑 예제 : Beautiful Soup 이용
- 자바스크립트(Node.js) 예제 : Puppeteer로 구글 검색
- Do's and Don'ts of Web Scraping
ㅤ→ 한개의 IP연결만 이용할 것
ㅤ→ 피크타임이 아닌 시간에 크롤링 할 것
ㅤ→ 사이트의 ToS 지킬 것
ㅤ→ robots.txt 의 룰 준수
ㅤ→ 콘텐츠를 다른 방식으로 보여주기 위해 크롤링 하는 것이라면, 단순 카피가 아닌 유니크한 솔루션일 것
ㅤ→ GDPR / CCPA 룰 지킬 것

글 하단에 있는 "Web scraping is now legal" 글도 참고하세요.
Linkedin이 분석회사 HiQ가 크롤링을 못하게 해달라고 요청했다가 미국 법원에서 거절된 사례입니다.
https://medium.com/@tjwaterman99/…