Crawlee for Python – 웹 스크래핑 및

▲

GN⁺ 2024-07-11 | parent | ★ favorite | on: Crawlee for Python – 웹 스크래핑 및 브라우저 자동화 라이브러리(crawlee.dev)

Hacker News 의견

기존 기능을 문서화하는 것이 중요함. 아무리 훌륭한 웹 스크래핑 플랫폼이라도 사용자만 이해할 수 있으면 소용없음
- 예를 들어, tiered_proxy_urls: list[list[str]] | None = None의 의미를 이해하기 어려움
- 예제는 .csv, .xlsx 테이블 등 모든 데이터를 찾아 다운로드하는 방법을 보여줘야 함
- 단순히 텍스트를 가져오고 URL을 검색하는 것은 누구나 할 수 있음
- 1000개의 다른 항목을 파싱하고 다른 엔드포인트를 통해 3-5개의 항목을 얻는 예제가 필요함
- 이 도구가 프레임워크인지 자동화 도구인지 명확하지 않음
- 웹 스크래핑 옵트아웃 프로토콜(예: Robots.txt, HTTP 및 콘텐츠 태그)을 지원하는지 궁금함. 특히 EU의 DSM 지침 이후 중요해짐
Apify/Crawlee에 감사함. 오랜 Node.js 사용자로서 이 라이브러리가 가장 잘 작동했음
프로젝트를 위해 스택을 찾다가 Crawlee를 발견함. Python 라이브러리를 원했지만 Typescript로 Crawlee를 사용하여 일주일 만에 프로젝트를 완료함
- API가 지금까지 사용한 어떤 Python 스크래핑 API보다 훨씬 나음
- Playwright와의 통합으로 프로그래밍 경험이 매우 편리해짐
- 프론트엔드 렌더링 웹사이트와 수정된 XHR 응답을 캡처하는 작업이 잘 작동함
- Apify 플랫폼을 사용하여 확장할 계획임
Scrapy와 어떻게 다른지 궁금함
다른 라이브러리에서 전환할 이유가 무엇인지 궁금함. 자체 크롤러를 구축했지만 특별히 독특한 점을 찾지 못함
모던 Python 코드가 멋져 보임
- 예제 코드에서 const data = await crawler.get_data()는 Javascript처럼 보임. 언더스코어가 빠진 것 같음
테스트 케이스에서 더 많은 코드 스니펫을 문서화 예제로 가져오는 것을 제안함. 좋은 작업임
스크래핑 도구는 언제나 환영받음. 개인 프로젝트에 사용해 볼 예정임. AI 덕분에 현재 스크래핑은 금광 시대의 삽을 파는 것과 같음