ArchiveTeam이 이런 프로젝트를 할 때마다 정말 놀라움을 느낌 몇 년 전에 근무하던 비디오 플랫폼이 곧 서비스 종료를 발표했을 때 ArchiveTeam 한 분과 연결이 되어, 데이터를 보존하는 작업에 관심이 있음을 들음 그분께 약간의 조언(아카이빙에 어려움이 생길 만한 서버 엔드포인트 정보)을 제공했고, 내 EC2 인스턴스 몇 개를 임시로 빌려드림 서버가 내 소유였기에 무슨 일이 일어나는지 볼 수 있었는데, 2분 만에 인스턴스가 완전히 준비되어 빠르게 영상을 아카이빙하기 시작했고, 각 인스턴스는 중복 없이 각기 다른 영상을 효율적으로 다운로드함 ArchiveTeam은 항상 사명도 좋지만, 실행 방식의 효율성이 정말 인상적임
제목이 정확하지 않음 실제로는 Archiveteam.org이고, Archive.org가 아님 The Internet Archive는 저장 공간을 제공하지만, 실제 아카이빙 작업은 Archiveteam 구성원이 진행함
Archiveteam의 기여가 정확히 뭔지 궁금함 잘 이해가 안 감 결국 아카이브 대상과 아카이브 서버 사이에서 굳이 필요 없는 중간자 역할인 것처럼 보임 내가 뭔가 놓친 게 있는지 궁금함
관련 내용을 공유하고 싶음 "링크부패(Link Rot)와의 전쟁에 동참하기" (링크), 구글 goo.gl 정책 변화에 대한 여러 HN 토론 스레드 (2018년~2025년 관련글 모음, 여기, 여기, 여기, 여기, 여기, 여기) 다양한 토론이 있으니 도움이 되길 바람
아, 구글이란 정말 신뢰할 수 없는 회사에서 나온 극히 신뢰할 수 없는 정보라고 여기기에 이번 "업데이트"도 전혀 믿지 않음
구글 공지대로라면 축약된 링크(goo.gl 링크)는 "8월 25일 이후 동작하지 않으며 다른 URL 단축 서비스로 옮기길 권장"한다는데, 그러면 실제로 일부 링크만 남길 의미가 무색해지는 것 아님? 이미 문서에 박혀서 수정 못하는 축약 링크들은 결국 다 끊어진다는 의미 아님?
결국 무슨 의미가 있는지 의문임 이미 거의 사용 안 하는(또는 저활동) 기존 링크는 리디렉션 해도 그다지 비용이 들지 않을 텐데 왜 굳이 중단해야 하는지 이해가 안 감 (이런 정책 변경으로 높은 사용량 링크만 리디렉션 계속하는 것도)
이게 잘 이해 안 감 데이터베이스 전부 보관하는 게 정말 그렇게 큰 비용이 드는 일인지 궁금함 어차피 일부는 계속 보관해야 하면서
reddit이나 twitter 전체를 아카이브하고 있는 사람이 있음? 비록 그들의 Terms가 변경되어 이를 허용하지 않는다 해도 궁금함
reddit은 예전에 Pushshift라는 프로젝트가 있었음 reddit API가 변경되기 전까지 이 데이터는 the-eye라는 또 다른 데이터 아카이버/보존 그룹에서 다운로드 가능함 twitter의 경우는 내가 아는 한 없음 게다가 Wayback Machine에서 트윗 아카이빙이 불가능한 지도 이미 수년이 지남
Academictorrents에서는 API 제한 이후에도 reddit의 모든 submission과 comment에 대한 월별 덤프를 받을 수 있음
OpenAI에 한번 물어보는 것도 방법임
페이지가 잘 이해가 안 감 데이터셋 리스트(아마도?)가 올라와 있는데 91 TiB까지 용량이 커 보임 구글 단축링크와 대상 URL 목록만으로 91 TiB나 필요할 것 같지 않음 혹시 원리를 아는 사람 있음?
내가 간단히 계산해 봄 구글 검색에서 임의로 뽑은 URL은 705바이트였고, goo.gl 짧은 링크는 22바이트, 단순 ID만 저장하면 6바이트임 짧거나 긴 경우도 있지만 전체적으로 대충 계산하면 수백억 ~ 수조 개 URL에 해당하는 용량임을 알 수 있음
내가 이번 아카이빙에 조금이나마 기여해서 기쁨
나도 내 이름이 리더보드에 올라가 있는 걸 보니 기분이 좋음 사실 그냥 하루 docker container 설치만 해놓고 잊어버린 것이 전부임
얼마나 많은 링크가 비공개 YouTube 영상이나 Google 문서 등으로 연결되는지 궁금함
내심 "이제 다운받아서 직접 검색해보면 되겠네"라고 농담하려 했으나, 실제로는 여기 보면 "Access-restricted-item: true"로 접근 제한이 있음 용량도 10GB씩 제공됨
"all"이라는 게 실제로 공개되어 있는 모든 URL을 말하는 건지, 아니면 URL 네임스페이스 전체를 반복적으로 모두 시도해본 건지 궁금함
실제로는 자원봉사자가 직접 클라이언트를 실행해서 IP 차단 없이 전체 URL 네임스페이스를 반복적으로 시도한 방식임
공개된 goo.gl URL은 이미 Internet Archive와 Common Crawl 크롤링에 다 포함되어 있음
Hacker News 의견
ArchiveTeam이 이런 프로젝트를 할 때마다 정말 놀라움을 느낌 몇 년 전에 근무하던 비디오 플랫폼이 곧 서비스 종료를 발표했을 때 ArchiveTeam 한 분과 연결이 되어, 데이터를 보존하는 작업에 관심이 있음을 들음 그분께 약간의 조언(아카이빙에 어려움이 생길 만한 서버 엔드포인트 정보)을 제공했고, 내 EC2 인스턴스 몇 개를 임시로 빌려드림 서버가 내 소유였기에 무슨 일이 일어나는지 볼 수 있었는데, 2분 만에 인스턴스가 완전히 준비되어 빠르게 영상을 아카이빙하기 시작했고, 각 인스턴스는 중복 없이 각기 다른 영상을 효율적으로 다운로드함 ArchiveTeam은 항상 사명도 좋지만, 실행 방식의 효율성이 정말 인상적임
제목이 정확하지 않음 실제로는 Archiveteam.org이고, Archive.org가 아님 The Internet Archive는 저장 공간을 제공하지만, 실제 아카이빙 작업은 Archiveteam 구성원이 진행함
관련 내용을 공유하고 싶음 "링크부패(Link Rot)와의 전쟁에 동참하기" (링크), 구글 goo.gl 정책 변화에 대한 여러 HN 토론 스레드 (2018년~2025년 관련글 모음, 여기, 여기, 여기, 여기, 여기, 여기) 다양한 토론이 있으니 도움이 되길 바람
구글의 최신 업데이트를 공유함 Google 블로그 업데이트 링크
reddit이나 twitter 전체를 아카이브하고 있는 사람이 있음? 비록 그들의 Terms가 변경되어 이를 허용하지 않는다 해도 궁금함
페이지가 잘 이해가 안 감 데이터셋 리스트(아마도?)가 올라와 있는데 91 TiB까지 용량이 커 보임 구글 단축링크와 대상 URL 목록만으로 91 TiB나 필요할 것 같지 않음 혹시 원리를 아는 사람 있음?
내가 이번 아카이빙에 조금이나마 기여해서 기쁨
얼마나 많은 링크가 비공개 YouTube 영상이나 Google 문서 등으로 연결되는지 궁금함
"all"이라는 게 실제로 공개되어 있는 모든 URL을 말하는 건지, 아니면 URL 네임스페이스 전체를 반복적으로 모두 시도해본 건지 궁금함