ArchiveBox가 진화중: 셀프 호스팅 인터넷 아카이브의 미래
(docs.sweeting.me)- ArchiveBox는 인터넷 아카이브를 자체 호스팅할 수 있는 새로운 기능을 소개
- 최근 Archive.org에 대한 공격 이후, ArchiveBox에 대한 관심이 증가하고 있음
- ArchiveBox는 Archive.org의 사명을 지지하며, 그들의 서비스가 인류에게 중요한 가치를 제공한다고 강조함
공공 아카이브의 한계
- 사람들은 영구적으로 아카이브하는 것에 대한 두려움으로 인해 아카이브를 꺼려함
- 개인이 중요하다고 생각하는 것을 아카이브할 수 있는 권한이 필요함
- 현대 웹 환경에 맞춰 개인 및 반개인적 콘텐츠를 아카이브할 수 있는 솔루션이 필요함
아카이빙의 중요성
- 가족, 개인, 기업 모두 자신에게 중요한 콘텐츠를 보존하고 싶어함
- 개인적인 콘텐츠 아카이빙은 보안상의 도전 과제가 있으며 주의가 필요함
악의적인 콘텐츠
- 공공 아카이브는 때때로 인종차별, 폭력, 증오 발언과 같은 콘텐츠를 보존함으로써 문제를 일으킬 수 있음
- 이러한 콘텐츠를 보존하는 방법에 대한 고민이 필요함
ArchiveBox의 새로운 플러그인 생태계 소개
- ArchiveBox v0.8은 프로젝트 역사상 가장 큰 업데이트로, 새로운 플러그인 생태계를 도입함
- 다양한 커뮤니티 지원 기능을 제공하는 플러그인들이 포함됨
yt-dlp는 YouTube, Soundcloud, YouKu 등에서 비디오, 오디오, 자막을 다운로드papers-dl은 DOI 번호가 보이면 과학 논문 PDF를 자동으로 다운로드gallery-dl은 Flickr, Instagram 등에서 사진 갤러리를 다운로드forum-dl은 오래된 포럼과 깊이 중첩된 댓글 스레드를 다운로드readability는 기사 텍스트를 .txt, .md, .epub로 추출ai는 페이지 스크린샷과 텍스트를 사용자 지정 프롬프트와 함께 LLM에 보내고 응답을 저장webhooks는 일부 결과가 저장될 때마다 외부 API를 트리거하고 Slack, N8N 등에 ping을 보냄- 그 외에도 많은 기능들이 있음
- 플러그인 시스템은 pluggy와 pydantic 라이브러리를 기반으로 함
추가 개발 사항
- 새로운 REST API가 django-ninja로 구축됨
- 외부 저장소 지원 추가
- 콘텐츠 주소 지정 가능한 저장소 시스템의 초기 단계 도입
- 백그라운드 작업 시스템 추가
- 간단한 사용자를 위한 새로운 도구 abx-dl 출시 예정
"ArchiveBox는 SQLite를 사용하여 로컬 우선(Local-First)으로 설계되었으며, P2P는 항상 선택 사항임"
GN⁺의 정리
- ArchiveBox는 개인 및 기업이 자신만의 인터넷 아카이브를 구축할 수 있도록 돕는 도구로, 최근의 변화는 이를 더욱 강화함
- 공공 아카이브의 한계를 보완하고, 개인적이고 민감한 콘텐츠를 안전하게 보존할 수 있는 방법을 제공함
- 플러그인 생태계는 다양한 기능을 제공하여 사용자 경험을 향상시킴
Hacker News 의견
-
ArchiveBox의 지속 가능성과 개선 필요성에 대한 의견이 있음. 커뮤니티의 참여가 중요하며, 단독 개발자의 어려움을 이해함.
- ArchiveBox가 더 안정적이고 신뢰할 수 있는 프로젝트가 되기 위해 커뮤니티의 지원이 필요함.
- 아카이빙은 과거뿐만 아니라 미래를 위한 것이며, 지속 가능한 개발 조직이 필요할 수 있음.
-
ArchiveBox의 새로운 API와 플러그인에 대한 기대감이 있음. 2년 동안 아카이빙에 사용 중임.
-
grab-site와 같은 도구가 WARC 아카이브 생성 및 저장에 유용할 수 있음. 분산 아카이브를 위한 CDX 인덱스와 암호화 서명 지원이 필요할 수 있음. -
ArchiveBox를 사용하여 오래된 보트에 대한 정보를 아카이빙한 경험을 공유함. 과거의 웹 포럼이 사라진 것에 대한 아쉬움을 표현함.
-
개인 웹 페이지 아카이빙을 위해 Readeck.org를 사용 중이며, ArchiveBox의 분산 아카이빙 방향에 관심이 있음.
-
abx-dl의 가용성에 대한 질문과 패키징 지원 의사를 밝힘. -
REST API에 대한 기대감이 있으며, 검색 기능의 부재에 아쉬움을 표현함. FTS 인덱스를 통한 쿼리 기능이 필요함.
-
ArchiveBox를 사용하여 웹사이트 아카이빙을 시도할 필요성을 느끼고 있음. Pinboard 구독의 아카이브 내보내기 기능이 작동하지 않음.
-
아카이빙된 데이터의 Merkle 트리 생성에 대한 제안을 함. 데이터의 진위성을 증명하기 위한 방법으로 블록체인을 고려할 수 있음.
-
자가 호스팅 웹사이트 변경 모니터링 시스템에 대한 추천을 요청함. Huginn을 사용 중이나, 최신 JS 기반 사이트에 어려움이 있음.