32P by xguru 3달전 | favorite | 댓글 3개
  • 모든 웹사이트를 오프라인으로 볼 수 있게 저장해주는 오픈소스
  • 직접 추가한 URL, 브라우저 방문기록(확장 제공), 북마크, RSS, Pocket/Pinboard 등에서 가져와 HTML/JS/PDF/미디어등을 저장
    • 하나씩 추가하거나 정기적으로 가져오게 스케줄링 가능
  • 리눅스,맥,윈도우(WSL2)에 설치하거나 Docker로 실행 후 CLI 도구/웹앱/파이썬 라이브러리/일회성 명령등으로 이용
  • URL의 스냅샷을 여러가지 중복형식으로 저장하며, 페이지에 포함된 모든 콘텐츠를 감지하여 폴더로 추출
    • HTML/모든 웹사이트 : 오리지널 HTML+CSS+JS, singlefile HTML, 스크린샷 PNG, PDF, WARC, 제목, 내용 텍스트, favicon, headers, …
    • 소셜 미디어/뉴스 : 기사 내용 TXT, 댓글, 제목, 저장, 이미지, …
    • YouTube/SoundCloud/etc. : MP3/MP4s, 자막, 메타데이터, 썸네일, …
    • Github/Gitlab/etc. 링크들 : GIT 소스코드 클론, README, 이미지들, …
  • 별도 포맷을 이용하지 않고 크롬, wget, yt-dlp 등의 표준 도구를 사용하여 일반 파일/폴더에 저장함. 즉 ArchiveBox 없이도 모든 데이터를 읽을수 있음
  • 저장하는 URL을 archive.org 로 보내서 별도 저장 요청 처리(중복 보관, 로컬 온리모드로 비활성화 가능)

요즘 Obsidian을 써보면서 Instapaper -> Obsidian 플러그인으로 markdown으로 저장해보고 있는데, 은근 깔끔하게 잘 안 떠와지더라구요.
AWS Lambda에 Go-Readability를 하나 띄워놓고 게을러서 멈추고 있었는데, 요런 도구들과 잘 연동되는게 있는지도 찾아봐야겠네요. 감사합니다!

저는 아카이빙이라는 키워드를 보면 자세히 보게 되네요. 과거 긱뉴스 기사 중에 관련된 것들입니다.

앗, Shori 의 긱뉴스 링크는 https://news.hada.io/topic?id=577 입니다.