macOS에서 Google Chrome을 사용하여 JavaScript가 실행된 후의 웹 페이지 HTML 파일을 얻는 방법을 README 파일에서 배움. 자세한 내용은 TIL에 정리하고, Playwright Chromium을 사용하는 자신의 도구인 shot-scraper도 비슷한 기능을 제공함.
단일 파일 페이지를 가능한 한 배포하는 것을 선호함. 소스 보기를 통해 모든 것을 볼 수 있어야 한다는 원칙 때문. 이러한 페이지들은 자체 포함적이며, 오프라인으로 사용하거나 다시 업로드할 수 있음. TypeScript를 사용하여 게임을 작성하고 이를 단일 HTML 파일로 빌드하는 간단한 빌드 시스템을 만듦. 브라우저가 TypeScript 문법을 지원하게 되면 컴파일러나 빌드 단계가 필요 없어질 것임.
SingleFile과의 비교해서 어떤지?
나중에 읽기 위해 웹 페이지를 저장하는 서비스를 자주 사용하지만, 실제로 읽으려 할 때 페이지가 더 이상 존재하지 않는 경우가 많음. 오프라인 아카이브 버전으로 이동하는 것이 더 나은 옵션일 수 있음을 고려 중.
Wayback Machine에서 전체 웹사이트를 복원하는 방법에 대한 질문. 사랑하는 웹사이트의 데이터베이스가 삭제되었으나, 모든 내용이 인터넷 아카이브에 존재함. 수동 스크래핑과 파이썬을 사용한 CSS URL 수정 등이 필요할 것으로 보임.
몇 년 전에 비슷한 것을 작성했으며, 주로 Go 프로그램에서 HTML을 생성할 때 사용함. 외부 스타일시트와 자바스크립트에 링크를 사용하고, 이를 단일 HTML 파일로 처리함.
지정된 깊이까지 링크를 따라가는 기능에 대한 지원이 있으면 좋겠다는 의견. Httrack과 유사한 기능을 언급.
이 도구는 흥미롭지만, 브라우저가 웹 페이지를 처리하는 방식에 대한 문제를 해결하기 위한 임시방편이라는 의견. 브라우저가 페이지를 "blah.html" 파일과 "blah_files" 폴더로 저장하는 대신, 둘을 하나의 폴더로 묶어서 쉽게 이동하고 복사할 수 있게 해야 한다고 주장함.
wget을 사용하여 웹 페이지와 모든 자산을 다운로드하는 방법에 대한 설명과 문서 링크 제공.
Hacker News 의견
macOS에서 Google Chrome을 사용하여 JavaScript가 실행된 후의 웹 페이지 HTML 파일을 얻는 방법을 README 파일에서 배움. 자세한 내용은 TIL에 정리하고, Playwright Chromium을 사용하는 자신의 도구인 shot-scraper도 비슷한 기능을 제공함.
/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome \ --headless --incognito --dump-dom https://github.com > /tmp/github.html단일 파일 페이지를 가능한 한 배포하는 것을 선호함. 소스 보기를 통해 모든 것을 볼 수 있어야 한다는 원칙 때문. 이러한 페이지들은 자체 포함적이며, 오프라인으로 사용하거나 다시 업로드할 수 있음. TypeScript를 사용하여 게임을 작성하고 이를 단일 HTML 파일로 빌드하는 간단한 빌드 시스템을 만듦. 브라우저가 TypeScript 문법을 지원하게 되면 컴파일러나 빌드 단계가 필요 없어질 것임.
SingleFile과의 비교해서 어떤지?
나중에 읽기 위해 웹 페이지를 저장하는 서비스를 자주 사용하지만, 실제로 읽으려 할 때 페이지가 더 이상 존재하지 않는 경우가 많음. 오프라인 아카이브 버전으로 이동하는 것이 더 나은 옵션일 수 있음을 고려 중.
Wayback Machine에서 전체 웹사이트를 복원하는 방법에 대한 질문. 사랑하는 웹사이트의 데이터베이스가 삭제되었으나, 모든 내용이 인터넷 아카이브에 존재함. 수동 스크래핑과 파이썬을 사용한 CSS URL 수정 등이 필요할 것으로 보임.
몇 년 전에 비슷한 것을 작성했으며, 주로 Go 프로그램에서 HTML을 생성할 때 사용함. 외부 스타일시트와 자바스크립트에 링크를 사용하고, 이를 단일 HTML 파일로 처리함.
지정된 깊이까지 링크를 따라가는 기능에 대한 지원이 있으면 좋겠다는 의견. Httrack과 유사한 기능을 언급.
이 도구는 흥미롭지만, 브라우저가 웹 페이지를 처리하는 방식에 대한 문제를 해결하기 위한 임시방편이라는 의견. 브라우저가 페이지를 "blah.html" 파일과 "blah_files" 폴더로 저장하는 대신, 둘을 하나의 폴더로 묶어서 쉽게 이동하고 복사할 수 있게 해야 한다고 주장함.
wget을 사용하여 웹 페이지와 모든 자산을 다운로드하는 방법에 대한 설명과 문서 링크 제공.
2019년 8월에 해커뉴스에 게시된 "Show HN: CLI tool for saving web pages as a single file"에 대한 관련 링크 제공.