Anna's Archive: 팀의 최신 업데이트
(annas-archive.org)- 최근 미션에 대한 공격이 증가함에 따라 인프라 및 운영 보안 강화를 진행 중임
- 2022년 시작 이후 수천만 개의 책, 논문, 매거진, 신문 등의 자료를 안전하게 보존 및 공유 중임
- 대규모 스크래핑으로 WorldCat, Google Books 등에서 방대한 메타데이터를 확보하여 미수집 자료 파악에 활용함
- LibGen, Z-Library 등과의 파트너십을 통해 수천만 건의 추가 자료를 확보했으나 일부 파트너의 사라짐에 대한 아쉬움도 있음
- WeLib 등 신생 사이트와는 신중한 관계를 유지하며, 커뮤니티에의 기여가 부족하다는 이유로 사용 자제를 권장함
최근 상황 및 팀의 대응
- 최근 Anna's Archive의 미션을 겨냥한 공격이 늘어난 상황임
- 이에 따라 인프라와 운영 보안 강화 조치를 진행하고 있음
- 인류의 지식 유산을 안전하게 보존하는 일은 계속 추구할 가치가 있는 활동임
자료 해방 및 저장 활동
- 2022년 시작 이후로 수천만 권의 책, 과학 논문, 매거진, 신문 등 다양한 컨텐츠를 확보함
- 이러한 자료들은 자연재해, 전쟁, 예산삭감 등 다양한 위협으로부터 보호되는 상태임
- 토렌트로 자료 배포에 동참해준 모든 이들의 노력에 힘입어, 자료 소실 우려가 크게 줄어듦
대규모 스크래핑 및 메타데이터 확보
- Anna's Archive는 IA Controlled Digital Lending, HathiTrust, DuXiu 등에서 대규모 스크래핑을 조직적으로 진행함
- tens of millions에 이르는 자료 파일을 확보하는 데 성공함
- WorldCat, Google Books 등에서 방대한 책 메타데이터 컬렉션을 구축함
- 확보된 메타데이터로 컬렉션에 아직 포함되지 않은 책을 식별하고, 희귀 자료 우선 확보 전략에 활용함
커뮤니티 및 협력, 새로운 개발
- LibGen 포크, STC/Nexus, Z-Library 등 협력 파트너들과 협업하여 수천만 개의 추가 파일을 확보함
- 파트너들이 파일을 미러링하는 등 미션에 큰 도움을 주고 있음
- 그러나 LibGen 포크 중 한 곳이 사라졌다는 점은 아쉬운 일로 인식함
신생 프로젝트와 주의 사항
- 최근에는 WeLib이라는 신규 프로젝트가 등장함
- 대부분의 아카이브 컬렉션을 미러링하고, Anna’s Archive 코드베이스 포크를 사용 중임
- WeLib의 사용자 인터페이스 개선점 일부를 차용하여 반영함
- 그러나 새로운 컬렉션 공유나 코드베이스 개선 공유가 없어 생태계 기여에 대한 약속이 부족함
- 이에 따라 WeLib 이용에 대해 주의를 권장함
- 추가로, 내부적으로 수백 테라바이트의 신규 컬렉션이 서버에 준비되어 처리 대기 중임
자원봉사 및 후원 요청
-
누구든 자원봉사 및 기부 페이지를 통해 프로젝트에 참여 가능함
-
모두 소규모 예산으로 운영되고 있어 조금의 도움도 큰 가치가 있음
-
앞으로도 지식 유산 보호와 해방을 위한 지속적인 노력을 독려함
-
Anna 및 팀 일동 (Reddit 커뮤니티 참조)
Hacker News 의견
-
내가 사는 책들은 Anna's Archive에서 골라 구입함, 만화책은 readComicsOnline에서, 유럽 그래픽노블은 #WONTTELL에서 선택함, 이 세 오프라인 매장에서 가장 자주 찾는 단골 손님임, 유행을 광고에 따라 구매하는 대신, 엄청나게 서칭해서 진짜 좋은 작품만 찾음, 가게 직원이 내가 온라인에서 발견한 희귀한 책을 주문하느라 고생할 때도 있음, 나는 예외일까 궁금하지만, 이런 서비스들은 내 자유로운 선택권을 지켜줌
-
이건 복잡한 문제임, 예전에 영화 릴리즈 그룹에서 활동했는데, 그 그룹 멤버들은 대부분 VHS/DVD 소장이 일반인보다 상당히 많았음, 그만큼 노력과 시간을 들여야 할 일임, 단순히 다운로드만 하는 사람들은 좀 더 혼재되어 있었음, 일부는 해외 거주로 국내 출시작을 볼 수 없었고, 일부는 전혀 미디어를 사지 않는 것을 자랑스럽게 여기기도 했음
-
상황이 비슷함, Anna's Archive 덕분에 학교 도서관보다 더 편하게 자료를 찾을 수 있음, 집에서 찾고, 필요한 정보 얻고, 삭제 가능함, 내용 미리 확인하고 진짜 좋으면 소장용으로 구입함, 이전보다 책을 더 많이 사지 않지만 만족도는 훨씬 높아짐, 반면에 업로드 사이트 덕분에 듣도 보도 못한 좋은 영화들을 알게 되어 예전보다 영화를 훨씬 많이 사게 됨
-
프랑스 만화 해적판 업계는 약 6개월 정도 딜레이를 두고 발매작을 유통함, 규모가 작아서 이 규칙이 잘 통함, 덕분에 만화에 흥미를 가지게 되었고, 마음에 드는 작품이 있으면 기꺼이 발매와 동시에 구입하고 DRM은 개인 소장용으로 제거함, 다운로드 대부분은 수집/아카이빙 성향에 가깝고, 정말 재미있게 끝까지 읽은 것은 저자를 후원함
-
나도 완전히 똑같음, 시리즈가 흥미로우면 일단 첫 권만 받아서 1/3 정도 읽고, 정말 좋으면 나중에 사서 읽음, 한 달에 책은 대략 3-4권(가능하면 drm free epub 선호), 유럽 그래픽노블은 월 10권쯤 사는 편임(종이책만 구입), 나 역시 무거운 소비자임
-
예전 인디 게임을 팔로우한 적이 있는데, 개발자가 DRM 없는 경험을 제공하려고 했음, 온라인 기능(예: 리더보드)도 있었는데, 실제 판매량보다 훨씬 많은 계정이 온라인 접속하는 것을 발견해 당황했음, 개발자들은 피쳐 설명에서 사람들에게 복사본 쓰지 말고 정품을 사달라고 호소하는 쪽으로 분위기가 바뀜, 결국 인기가 많았지만 너무 많은 해적판 복제로 너무 적은 사람이 돈을 내서 팀은 프로젝트를 포기함, 해적판 얘기만 나오면, 본인들이 평균보다 더 많이 소비한다면서 자기 행동을 정당화하려는 사람들이 많은데, 실제 통계 데이터를 보면 무료로 쓰기 때문이라는 사람이 대다수임
-
-
쉐도우 라이브러리 운영자들은 인류에 큰 공헌을 하고 있으니 노벨상 감임, Satoshi도 분명히 자랑스러워할 것임
-
Satoshi가 자랑스러워할 점은, 검열 두려움 없이 쉐도우 라이브러리를 지원 가능하다는 점, 항목 1개만 있어도 리스트로 쳐주는 점임
-
aaronsw도 아마 자랑스러워할 것임
-
그라면 동전 몇 개라도 거들 수 있을 텐데, 그에겐 잔돈 수준임
-
-
누구나 시드를 올리면서 장기 보존에 참여할 수 있는 torrents 리스트를 제공함 https://annas-archive.org/torrents
-
i2p 기반 토런트가 의외로 아직 널리 확산되지 않아 이런 사이트에서 옵션으로 제공하지 않는 것이 놀라움, 법적 부담 때문에 기여하지 못하는 사람이 많을 거라 생각함, i2p가 도움이 될 수 있음
-
sci-hub는 약 90TB, libgen-non-fiction은 77.5TB 정도인 것이 인상적임, 이 둘이야말로 논문과 교과서 등 핵심 과학 지식을 담고 있어 반드시 보호해야 할 아카이브임, 나도 집 서버에 16TB 정도 저장하지만 200TB 규모로 확장하려면 장비, 비용 등 만만치 않음(12개 16TB 디스크만 2200불), 데이터 중복과 서버 하드웨어까지 고려하면 대략 5천불 정도로 인류가 쌓은 주요 과학 지식 전체를 캐싱할 수 있음, 흥미로운 점은 이런 저장소 용량이 최근 거의 늘지 않고 있음, scihub도 2022년 이후 업데이트가 멈췄고, 최근 늘어난 저품질 학술지들도 중요도는 떨어질 것이라 봄
-
-
도서관에서 시리즈 책을 읽다보니 3권이나 4권이 없어서 황당했음, 아마 분실이나 훼손된 듯함, 직접 중고서점에서 사서 기증할까 생각도 했지만, 새 에디션은 가격도 올라 있고 분위기도 달라 고민 끝에 포기함, 그래서 Anna’s Archive에서 구했음, 시리즈 마지막 몇 권도 도서관에 없었음(누가 대출해 도로 반납하지 않았다거나, 애초부터 없던 것 같기도 함), 나는 단지 이 작가의 전작을 완독하고 싶었을 뿐이고, 실제로 좋아하는 책은 종이책과 오디오북 두 번이나 구입했음, 오래 전에는 친구들이 책 수집에 빠졌지만 본인은 다시 읽을 책만 남겨두는 쪽임, 완성욕이 생겨도 도서관이나 전자책으로 해결함, 나이가 들수록 책과 내 유한함을 실감함, 은퇴해서 일주일 3-4권씩 읽어도 평생 읽지 못할 분량의 책을 쌓아둔 상태임, 새로운 신간과 새로운 목소리도 계속 등장함, 마지막으로 Dune을 다시 읽고 중고서점에 내보냈고, 또 읽는다면 아마 오디오북 버전일 것임
-
"Anna’s Archive가 IA Controlled Digital Lending에서 수천만 파일을 얻었다"는 부분은 전체적으로 보면 큰 도움이 안 된다고 생각함
-
이건 법정에서 다뤄질 수밖에 없는 굉장히 애매한 언급임
-
Anna's Archive가 무책임하게 '이런 짓도 했다' 자랑하는 건 무척 이기적인 행동으로 보임, 아무런 결과를 고려하지 않음
-
그게 왜 문제인지 모르겠음, 원래 책을 모으는 게 이들의 목적임
-
-
Anna's Archive 같은 곳은 인터넷에 남은 마지막 좋은 것들 중 하나라 생각함
-
어떻게 자금을 마련하고, 어떻게 사이트를 살아남게 만드는지 궁금함, 막대한 자금력을 가진 기업, 국가가 이 사이트를 없애고 싶어할 것 같음
-
마지막에 좋은 것 중 하나라는 점에 동의함(라스트지만 최소한 아님)
-
-
이 프로젝트 팀에게 찬사를 보냄, 최근 1년 사이에 UI가 개선된 것 같아서 인상 깊음, 남은 문제는 서비스가 계속 접속 가능하도록 살아남는 것임, 얼마나 노력이 들어가는지 궁금함, 이렇게 공격받는 상황에서 어떻게 버틸 수 있는지 궁금함
- 최근 2~5일 사이에 대형 UI 업데이트가 있었음, 약간 아쉬운 점은 모바일에서 예전에는 검색 결과를 훨씬 효율적으로 볼 수 있었는데, 새 디자인은 한 화면에 대략 4~5개 정도밖에 안 보임
-
참고로 이 사이트도 꽤 유용하게 활용됨 https://open-slum.org/
-
사이트가 접속이 안 되는데, 어떤 내용이 있고 왜 유용한지 설명해 줬으면 함
-
이 사이트는 Uptime Kuma 인스턴스로 보임, Uptime Kuma는 오픈 소스 프로젝트로, 모니터링과 대시보딩에 강점이 있음 https://github.com/louislam/uptime-kuma
-
-
시민들은 Anna's Archive 같은 곳을 지지하지만 정부는 반대한다는 게 왠지 재미있음, 엘리트주의의 한 증거로 보임
-
웃기거나 이상한 일은 아님, 저자(작가)라는 당사자 시각이 빠져 있음, Anna’s Archive에 책을 쓴 작가들은 얼마나 만족할지 궁금함, 나는 개인적으로 사회 전체가 좀 더 많이 책을 읽게 되는 게 도움이 된다고 생각해서 Anna’s Archive, sci-hub 등에 긍정적임, 하지만 현 시스템 안에서 보상과 법률 문제 등 여러 고민은 있음
-
작가는 어떻게 생각할지 궁금함
-
-
Anna's Archive나 비슷한 사이트가 전체 New York Times(1930년 이전 버전) 전체 PDF 세트나 다른 신문들을 제공하는지 궁금함, 지금은 Newspapers.com 등 공공 도메인 자료조차 폐쇄적 웹사이트에 갇혀 있거나 옛 구글 뉴스/신문처럼 완전 검색 불가 상태임, AI 학습 데이터 확보 경쟁 덕분에 기존 유료/폐기된 사이트보다 더 개방적이고 AI 기반 탐색 기능을 갖춘 새로운 아카이브가 생기길 바람, 일부는 Internet Archive 등에서 구할 수 있지만, 진짜 필요한 것은 AI 기반 검색 기능임
- https://archive.org/search/… 링크에서 NYT 옛 신문을 일부 찾을 수 있음, 전체 PDF 세트로 한 번에 받을 수는 없지만 Anna’s Archive 토런트로 각각 개별 PDF를 찾아서 합치는 건 가능함, AI 기반 검색은 시간과 의지만 있다면 예전 NYT 기사를 OCR을 거쳐 텍스트화하고, 그걸 LLM 같은 데에 입력해서 의미 기반 탐색이 가능함, 이런 프로젝트는 이상적으로는 공공 문화 기금이 학술 연구로 지원하면 좋다고 생각함