GN⁺: Epublifier – 오프라인 독서를 위한 페이지(책, 매뉴얼) 스크래핑 도구
(github.com/maoserr)- 웹사이트를 ePub으로 변환하는 도구
- 웹사이트에서 HTML 페이지 목록을 추출하고 이를 ePub 책으로 컴파일하여 원하는 eReader로 가져올 수 있음
- 자바스크립트를 작성할 수 있는 고급 사용자는 사이트의 파싱을 사용자 정의할 수 있는 추가 파서 정의를 추가할 수 있음
지원 사이트
- Novel Update
- Wuxia World
- awesome-read-the-docs의 대부분의 사이트
- UL/OL 요소를 목차로 사용하거나 링크 텍스트에 정규 표현식을 사용하거나 쿼리 선택기를 사용하는 사용자 정의 사이트
- 미리 정의된 제목(헤더) 요소와 다음 버튼(클릭 가능한)을 사용하는 사용자 정의 웹 앱
GN⁺의 정리
- Epublifier는 웹사이트의 콘텐츠를 ePub 형식으로 변환하여 eReader에서 쉽게 읽을 수 있도록 도와주는 도구임
- 이 도구는 특히 Novel Update와 Wuxia World 같은 사이트를 지원하며, 고급 사용자는 자바스크립트를 통해 파싱을 사용자 정의할 수 있음
- 이 도구는 웹 콘텐츠를 오프라인에서 읽고자 하는 사용자에게 유용하며, 비슷한 기능을 제공하는 도구로는 Calibre가 있음
Hacker News 의견
- Calibre는 많은 사이트를 지원함
- 이 확장 프로그램은 다른 스크래퍼와 차별화된 이유를 설명하고자 함
- 전통적인 스크래퍼가 잘 작동하지 않는 웹사이트에서 EPub을 생성하기 위한 것임
- 일반적인 명령줄 스크래퍼와 다른 확장 프로그램은 미리 정의된 사이트에서만 작동함
- 복잡한 설정이나 코드가 필요할 수 있음
- 일부 사이트는 JavaScript를 사용하여 동적으로 텍스트를 생성하거나 가져옴
- 브라우저에서 실행되므로 탐지 및 차단 가능성이 낮음
- 반복적 사용이나 백그라운드 작업을 위한 것이 아님
- 사이트에 대한 설정 없이도 쉽게 스크래핑할 수 있도록 UI 제공
- 다른 프로그램/확장 프로그램이 이미 처리하는 사이트에서는 더 나은 성능을 기대할 수 없음
- 특정 사이트에 고정되지 않기 때문에 작성함
- 이 프로그램의 흥미로운 점은 임의의 사이트에서 콘텐츠를 추출하는 UI임
- 모든 섹션이 아코디언 뒤에 숨겨져 있는 사이트를 처리할 수 있다면 훌륭할 것임
- 비슷한 것을 만들고 있음
- 블로그와 웹 소설 등을 위한 웹 스크래퍼와 ePub 파서 개발 중
- 오프라인 읽기를 위한 PWA 동반 앱도 개발 중
- Paul Graham의 에세이를 ePub으로 얻고 싶을 때가 있음
- 간단한 버전을 만들어 서버 파일 시스템에 ePub 파일을 저장한 적이 있음
- Postlight Parser를 사용하여 웹사이트의 단순화된 문서 뷰 제공
- 이 도구는 놀라운 도구임
- 오프라인 여행을 위해 많은 웹페이지를 캐시하던 시절이 지나감
- fanfiction.net을 지원하는지 궁금함
- AWS, VueJS, MDN, w3schools, realpython, betterstack 같은 문서가 많은 웹사이트에서 실행하는 것을 좋아할 것임