▲GN⁺ 2024-07-11 | parent | ★ favorite | on: Crawlee for Python – 웹 스크래핑 및 브라우저 자동화 라이브러리(crawlee.dev)Hacker News 의견 기존 기능을 문서화하는 것이 중요함. 아무리 훌륭한 웹 스크래핑 플랫폼이라도 사용자만 이해할 수 있으면 소용없음 예를 들어, tiered_proxy_urls: list[list[str]] | None = None의 의미를 이해하기 어려움 예제는 .csv, .xlsx 테이블 등 모든 데이터를 찾아 다운로드하는 방법을 보여줘야 함 단순히 텍스트를 가져오고 URL을 검색하는 것은 누구나 할 수 있음 1000개의 다른 항목을 파싱하고 다른 엔드포인트를 통해 3-5개의 항목을 얻는 예제가 필요함 이 도구가 프레임워크인지 자동화 도구인지 명확하지 않음 웹 스크래핑 옵트아웃 프로토콜(예: Robots.txt, HTTP 및 콘텐츠 태그)을 지원하는지 궁금함. 특히 EU의 DSM 지침 이후 중요해짐 Apify/Crawlee에 감사함. 오랜 Node.js 사용자로서 이 라이브러리가 가장 잘 작동했음 프로젝트를 위해 스택을 찾다가 Crawlee를 발견함. Python 라이브러리를 원했지만 Typescript로 Crawlee를 사용하여 일주일 만에 프로젝트를 완료함 API가 지금까지 사용한 어떤 Python 스크래핑 API보다 훨씬 나음 Playwright와의 통합으로 프로그래밍 경험이 매우 편리해짐 프론트엔드 렌더링 웹사이트와 수정된 XHR 응답을 캡처하는 작업이 잘 작동함 Apify 플랫폼을 사용하여 확장할 계획임 Scrapy와 어떻게 다른지 궁금함 다른 라이브러리에서 전환할 이유가 무엇인지 궁금함. 자체 크롤러를 구축했지만 특별히 독특한 점을 찾지 못함 모던 Python 코드가 멋져 보임 예제 코드에서 const data = await crawler.get_data()는 Javascript처럼 보임. 언더스코어가 빠진 것 같음 테스트 케이스에서 더 많은 코드 스니펫을 문서화 예제로 가져오는 것을 제안함. 좋은 작업임 스크래핑 도구는 언제나 환영받음. 개인 프로젝트에 사용해 볼 예정임. AI 덕분에 현재 스크래핑은 금광 시대의 삽을 파는 것과 같음
Hacker News 의견
기존 기능을 문서화하는 것이 중요함. 아무리 훌륭한 웹 스크래핑 플랫폼이라도 사용자만 이해할 수 있으면 소용없음
tiered_proxy_urls: list[list[str]] | None = None의 의미를 이해하기 어려움Apify/Crawlee에 감사함. 오랜 Node.js 사용자로서 이 라이브러리가 가장 잘 작동했음
프로젝트를 위해 스택을 찾다가 Crawlee를 발견함. Python 라이브러리를 원했지만 Typescript로 Crawlee를 사용하여 일주일 만에 프로젝트를 완료함
Scrapy와 어떻게 다른지 궁금함
다른 라이브러리에서 전환할 이유가 무엇인지 궁금함. 자체 크롤러를 구축했지만 특별히 독특한 점을 찾지 못함
모던 Python 코드가 멋져 보임
const data = await crawler.get_data()는 Javascript처럼 보임. 언더스코어가 빠진 것 같음테스트 케이스에서 더 많은 코드 스니펫을 문서화 예제로 가져오는 것을 제안함. 좋은 작업임
스크래핑 도구는 언제나 환영받음. 개인 프로젝트에 사용해 볼 예정임. AI 덕분에 현재 스크래핑은 금광 시대의 삽을 파는 것과 같음