GN⁺: ArchiveBox가 진화중: 셀프 호스팅 인터넷 아카이브의 미래
(docs.sweeting.me)- ArchiveBox는 인터넷 아카이브를 자체 호스팅할 수 있는 새로운 기능을 소개
- 최근 Archive.org에 대한 공격 이후, ArchiveBox에 대한 관심이 증가하고 있음
- ArchiveBox는 Archive.org의 사명을 지지하며, 그들의 서비스가 인류에게 중요한 가치를 제공한다고 강조함
공공 아카이브의 한계
- 사람들은 영구적으로 아카이브하는 것에 대한 두려움으로 인해 아카이브를 꺼려함
- 개인이 중요하다고 생각하는 것을 아카이브할 수 있는 권한이 필요함
- 현대 웹 환경에 맞춰 개인 및 반개인적 콘텐츠를 아카이브할 수 있는 솔루션이 필요함
아카이빙의 중요성
- 가족, 개인, 기업 모두 자신에게 중요한 콘텐츠를 보존하고 싶어함
- 개인적인 콘텐츠 아카이빙은 보안상의 도전 과제가 있으며 주의가 필요함
악의적인 콘텐츠
- 공공 아카이브는 때때로 인종차별, 폭력, 증오 발언과 같은 콘텐츠를 보존함으로써 문제를 일으킬 수 있음
- 이러한 콘텐츠를 보존하는 방법에 대한 고민이 필요함
ArchiveBox의 새로운 플러그인 생태계 소개
- ArchiveBox v0.8은 프로젝트 역사상 가장 큰 업데이트로, 새로운 플러그인 생태계를 도입함
- 다양한 커뮤니티 지원 기능을 제공하는 플러그인들이 포함됨
-
yt-dlp
는 YouTube, Soundcloud, YouKu 등에서 비디오, 오디오, 자막을 다운로드 -
papers-dl
은 DOI 번호가 보이면 과학 논문 PDF를 자동으로 다운로드 -
gallery-dl
은 Flickr, Instagram 등에서 사진 갤러리를 다운로드 -
forum-dl
은 오래된 포럼과 깊이 중첩된 댓글 스레드를 다운로드 -
readability
는 기사 텍스트를 .txt, .md, .epub로 추출 -
ai
는 페이지 스크린샷과 텍스트를 사용자 지정 프롬프트와 함께 LLM에 보내고 응답을 저장 -
webhooks
는 일부 결과가 저장될 때마다 외부 API를 트리거하고 Slack, N8N 등에 ping을 보냄 - 그 외에도 많은 기능들이 있음
-
- 플러그인 시스템은 pluggy와 pydantic 라이브러리를 기반으로 함
추가 개발 사항
- 새로운 REST API가 django-ninja로 구축됨
- 외부 저장소 지원 추가
- 콘텐츠 주소 지정 가능한 저장소 시스템의 초기 단계 도입
- 백그라운드 작업 시스템 추가
- 간단한 사용자를 위한 새로운 도구 abx-dl 출시 예정
"ArchiveBox는 SQLite를 사용하여 로컬 우선(Local-First)으로 설계되었으며, P2P는 항상 선택 사항임"
GN⁺의 정리
- ArchiveBox는 개인 및 기업이 자신만의 인터넷 아카이브를 구축할 수 있도록 돕는 도구로, 최근의 변화는 이를 더욱 강화함
- 공공 아카이브의 한계를 보완하고, 개인적이고 민감한 콘텐츠를 안전하게 보존할 수 있는 방법을 제공함
- 플러그인 생태계는 다양한 기능을 제공하여 사용자 경험을 향상시킴
Hacker News 의견
-
ArchiveBox의 지속 가능성과 개선 필요성에 대한 의견이 있음. 커뮤니티의 참여가 중요하며, 단독 개발자의 어려움을 이해함.
- ArchiveBox가 더 안정적이고 신뢰할 수 있는 프로젝트가 되기 위해 커뮤니티의 지원이 필요함.
- 아카이빙은 과거뿐만 아니라 미래를 위한 것이며, 지속 가능한 개발 조직이 필요할 수 있음.
-
ArchiveBox의 새로운 API와 플러그인에 대한 기대감이 있음. 2년 동안 아카이빙에 사용 중임.
-
grab-site
와 같은 도구가 WARC 아카이브 생성 및 저장에 유용할 수 있음. 분산 아카이브를 위한 CDX 인덱스와 암호화 서명 지원이 필요할 수 있음. -
ArchiveBox를 사용하여 오래된 보트에 대한 정보를 아카이빙한 경험을 공유함. 과거의 웹 포럼이 사라진 것에 대한 아쉬움을 표현함.
-
개인 웹 페이지 아카이빙을 위해 Readeck.org를 사용 중이며, ArchiveBox의 분산 아카이빙 방향에 관심이 있음.
-
abx-dl
의 가용성에 대한 질문과 패키징 지원 의사를 밝힘. -
REST API에 대한 기대감이 있으며, 검색 기능의 부재에 아쉬움을 표현함. FTS 인덱스를 통한 쿼리 기능이 필요함.
-
ArchiveBox를 사용하여 웹사이트 아카이빙을 시도할 필요성을 느끼고 있음. Pinboard 구독의 아카이브 내보내기 기능이 작동하지 않음.
-
아카이빙된 데이터의 Merkle 트리 생성에 대한 제안을 함. 데이터의 진위성을 증명하기 위한 방법으로 블록체인을 고려할 수 있음.
-
자가 호스팅 웹사이트 변경 모니터링 시스템에 대한 추천을 요청함. Huginn을 사용 중이나, 최신 JS 기반 사이트에 어려움이 있음.