ArchiveTeam이 모든 goo.gl 단축 링크 아카이브 작업을 완료함
(tracker.archiveteam.org)- ArchiveTeam은 모든 goo.gl 단축 링크를 성공적으로 아카이브함
- ArchiveTeam Warrior라는 가상 아카이빙 프로그램을 통해 누구나 아카이브 프로젝트에 참여 가능
- 이 워리어는 Windows, OS X, Linux 환경에서 별도의 위험 없이 실행할 수 있음
- 사용자는 간단한 설정을 통해 프로젝트 선택 및 활동에 참여 가능함
- 특별한 기술 없이도 아카이브 활동에 도움이 되는 쉽고 직관적인 방식을 제공함
ArchiveTeam Warrior 소개
- ArchiveTeam Warrior는 누구나 손쉽게 사용할 수 있는 가상 아카이빙 어플라이언스임
- 사용자는 Warrior를 실행하여 웹사이트 등을 다운로드하고, 이를 ArchiveTeam의 아카이브로 업로드하는 작업에 참여할 수 있음
- Warrior는 실제 컴퓨터 환경에 위험을 주지 않으며, 인터넷 대역폭과 약간의 디스크 공간만 활용함
- Windows, OS X, Linux 환경을 모두 지원하며, VirtualBox, VMware 등 가상머신 프로그램이 필요함
VirtualBox를 이용한 사용 방법
- Warrior 어플라이언스(357MB)를 다운로드함
- VirtualBox에서 File > Import Appliance 메뉴를 클릭하여 다운로드한 파일을 불러옴
- 가상머신을 시작하면, 최신 업데이트를 자동으로 받고, 웹 브라우저 사용 요청을 받음
Warrior 실행 후 과정
- 에 접속하여 Settings 페이지를 확인함
- 사용자 이름을 선택하여 leaderboard에 진행 상황을 표시함
- All projects 탭에서 원하는 프로젝트를 선택해 참여하며, 가장 긴급한 프로젝트에 참여하는 ArchiveTeam’s Choice 선택도 가능함
참여의 이점
- 특별한 기술이나 복잡한 과정 없이 누구나 간단하게 아카이브 프로젝트 활동에 기여할 수 있음
- 사용자의 아카이브 활동 실적은 리더보드에 표시되어 동기부여 및 협업 효과가 있음
Hacker News 의견
-
ArchiveTeam이 이런 프로젝트를 할 때마다 정말 놀라움을 느낌 몇 년 전에 근무하던 비디오 플랫폼이 곧 서비스 종료를 발표했을 때 ArchiveTeam 한 분과 연결이 되어, 데이터를 보존하는 작업에 관심이 있음을 들음 그분께 약간의 조언(아카이빙에 어려움이 생길 만한 서버 엔드포인트 정보)을 제공했고, 내 EC2 인스턴스 몇 개를 임시로 빌려드림 서버가 내 소유였기에 무슨 일이 일어나는지 볼 수 있었는데, 2분 만에 인스턴스가 완전히 준비되어 빠르게 영상을 아카이빙하기 시작했고, 각 인스턴스는 중복 없이 각기 다른 영상을 효율적으로 다운로드함 ArchiveTeam은 항상 사명도 좋지만, 실행 방식의 효율성이 정말 인상적임
-
제목이 정확하지 않음 실제로는 Archiveteam.org이고, Archive.org가 아님 The Internet Archive는 저장 공간을 제공하지만, 실제 아카이빙 작업은 Archiveteam 구성원이 진행함
- Archiveteam의 기여가 정확히 뭔지 궁금함 잘 이해가 안 감 결국 아카이브 대상과 아카이브 서버 사이에서 굳이 필요 없는 중간자 역할인 것처럼 보임 내가 뭔가 놓친 게 있는지 궁금함
-
관련 내용을 공유하고 싶음 "링크부패(Link Rot)와의 전쟁에 동참하기" (링크), 구글 goo.gl 정책 변화에 대한 여러 HN 토론 스레드 (2018년~2025년 관련글 모음, 여기, 여기, 여기, 여기, 여기, 여기) 다양한 토론이 있으니 도움이 되길 바람
-
구글의 최신 업데이트를 공유함 Google 블로그 업데이트 링크
- 아, 구글이란 정말 신뢰할 수 없는 회사에서 나온 극히 신뢰할 수 없는 정보라고 여기기에 이번 "업데이트"도 전혀 믿지 않음
- 구글 공지대로라면 축약된 링크(goo.gl 링크)는 "8월 25일 이후 동작하지 않으며 다른 URL 단축 서비스로 옮기길 권장"한다는데, 그러면 실제로 일부 링크만 남길 의미가 무색해지는 것 아님? 이미 문서에 박혀서 수정 못하는 축약 링크들은 결국 다 끊어진다는 의미 아님?
- 결국 무슨 의미가 있는지 의문임 이미 거의 사용 안 하는(또는 저활동) 기존 링크는 리디렉션 해도 그다지 비용이 들지 않을 텐데 왜 굳이 중단해야 하는지 이해가 안 감 (이런 정책 변경으로 높은 사용량 링크만 리디렉션 계속하는 것도)
- 이게 잘 이해 안 감 데이터베이스 전부 보관하는 게 정말 그렇게 큰 비용이 드는 일인지 궁금함 어차피 일부는 계속 보관해야 하면서
-
reddit이나 twitter 전체를 아카이브하고 있는 사람이 있음? 비록 그들의 Terms가 변경되어 이를 허용하지 않는다 해도 궁금함
- reddit은 예전에 Pushshift라는 프로젝트가 있었음 reddit API가 변경되기 전까지 이 데이터는 the-eye라는 또 다른 데이터 아카이버/보존 그룹에서 다운로드 가능함 twitter의 경우는 내가 아는 한 없음 게다가 Wayback Machine에서 트윗 아카이빙이 불가능한 지도 이미 수년이 지남
- Academictorrents에서는 API 제한 이후에도 reddit의 모든 submission과 comment에 대한 월별 덤프를 받을 수 있음
- OpenAI에 한번 물어보는 것도 방법임
-
페이지가 잘 이해가 안 감 데이터셋 리스트(아마도?)가 올라와 있는데 91 TiB까지 용량이 커 보임 구글 단축링크와 대상 URL 목록만으로 91 TiB나 필요할 것 같지 않음 혹시 원리를 아는 사람 있음?
- 내가 간단히 계산해 봄 구글 검색에서 임의로 뽑은 URL은 705바이트였고, goo.gl 짧은 링크는 22바이트, 단순 ID만 저장하면 6바이트임 짧거나 긴 경우도 있지만 전체적으로 대충 계산하면 수백억 ~ 수조 개 URL에 해당하는 용량임을 알 수 있음
-
내가 이번 아카이빙에 조금이나마 기여해서 기쁨
- 나도 내 이름이 리더보드에 올라가 있는 걸 보니 기분이 좋음 사실 그냥 하루 docker container 설치만 해놓고 잊어버린 것이 전부임
-
얼마나 많은 링크가 비공개 YouTube 영상이나 Google 문서 등으로 연결되는지 궁금함
- 내심 "이제 다운받아서 직접 검색해보면 되겠네"라고 농담하려 했으나, 실제로는 여기 보면 "Access-restricted-item: true"로 접근 제한이 있음 용량도 10GB씩 제공됨
-
"all"이라는 게 실제로 공개되어 있는 모든 URL을 말하는 건지, 아니면 URL 네임스페이스 전체를 반복적으로 모두 시도해본 건지 궁금함
- 실제로는 자원봉사자가 직접 클라이언트를 실행해서 IP 차단 없이 전체 URL 네임스페이스를 반복적으로 시도한 방식임
- 공개된 goo.gl URL은 이미 Internet Archive와 Common Crawl 크롤링에 다 포함되어 있음