17P by xguru 5달전 | favorite | 댓글과 토론
  • 다중 페이지 웹앱을 Zip 파일에 크롤링하고 바로 서빙 가능한 Multi-Page Application(MPA) Archiver
  • mpa http://example.net 하면 헤드리스 Puppeteer를 이용하여 재귀적으로 크롤링 ( CPU 수 / 2 개의 쓰레드 사용 )
  • Sitemap을 가져와서 시드포인트로 사용
  • 사이트 URL만 크롤링 하지만, 외부 리소스도 fetch
  • 사이트의 리소스들을 두 저장
  • mpa/sitemap.txtmpa/sitemap.xml 을 생성함
  • 중단 되면 재시작 가능. URL 250개마다 체크포인트를 저장함
  • SPA의 경우 --spa 옵션으로 원본 HTML을 저장 가능