Internet Archive에 1조 개의 웹페이지가 보관됨
(blog.archive.org)- Internet Archive가 운영하는 Wayback Machine이 전 세계 웹페이지 1조 건 보존이라는 역사적 이정표를 달성
- 1996년 시작된 이 프로젝트는 웹의 집단적 기억을 보존하기 위한 협업으로, 뉴스·블로그·개인 홈페이지 등 다양한 콘텐츠를 아카이빙함
- 이를 기념해 10월 한 달간 샌프란시스코와 온라인에서 음악회·대담·포럼·오픈하우스 등 일련의 행사를 개최함
- 행사에는 웹 창시자 팀 버너스리, Internet Archive 설립자 브루스터 케일, Google의 빈트 서프 등 인터넷 개척자들이 참여
- 이번 성취는 디지털 시대의 집단적 기록 보존 가치를 되새기며, 자유롭고 개방된 웹의 미래를 함께 논의하는 자리로 의미를 가짐
Internet Archive의 1조 페이지 달성 의미
- Wayback Machine은 1996년부터 전 세계 웹사이트를 자동 수집·보존해 누구나 과거 웹을 탐색할 수 있도록 함
- 이번 1조 건 달성은 ‘인류 온라인 역사의 공동 도서관’ 이라는 목표의 중대한 진전임
- 프로젝트는 도서관, 연구기관, 개인 자원봉사자 등과의 글로벌 협력으로 유지되어 왔음
- 아카이브는 뉴스 헤드라인, 블로그, 포럼, 개인 홈페이지 등 사라질 수 있는 웹의 흔적을 미래 세대를 위한 디지털 기억으로 남김
10월 기념 행사 일정
10월 7일 — The Vast Blue We: Del Sol Quartet at the Internet Archive
- 샌프란시스코 본사에서 Del Sol Quartet이 연주하는 음악과 함께 인간 협력의 거대함을 기념하는 공연 개최
- 작곡가 Erika Oba, Sam Reider가 새로 작곡한 음악을 연주할 예정
- 수십억 개인의 행동이 모여 만든 웹 협업의 아름다움을 음악으로 표현
10월 9일 — Sir Tim Berners-Lee와 Brewster Kahle의 대담
- 월드와이드웹 창시자 Sir Tim Berners-Lee와 Internet Archive 설립자 Brewster Kahle의 토론
- 인터넷 성장, 사회 변화, 인터넷 아카이브의 역할 등 다양한 주제 논의
- 인터넷의 지속적인 발전과 미래 쟁점에 대한 심도 있는 대화로 구성됨
- 샌프란시스코 커먼웰스 클럽 및 온라인 생중계 진행
10월 16일 — Library Leaders Forum 2025 (온라인)
- Internet Archive 및 파트너 기관의 새로운 도서관 서비스와 기존 프로젝트 현황 공유
- 전 세계 도서관 리더들이 참여해 디지털 보존과 연구 지원의 미래 논의
- Internet Archive의 새로운 서비스와 연구 지원 사례 소개
10월 21일 — Doors Open 2025: 물리 아카이브 투어
- Richmond, California에 위치한 물리적 아카이브의 책, 음악, 영상, 필름 등의 실제 보관 환경 공개
- 도서, 음악, 필름, 마이크로피시 등 실물 아카이빙 과정 시연
- 기부, 보존, 디지털화, 접근 가능성 등 물리적 자료의 전체 라이프사이클을 직접 확인할 수 있는 기회
10월 22일 — The Web We’ve Built: 1 Trillion Celebration
- Wayback Machine의 1조 웹페이지 달성 공식 기념 행사
- 샌프란시스코 본사에서 글로벌 스트리밍 파티 동시 진행
- “1조 개의 기억, 순간, 움직임을 보존한 성취”라는 주제로
공개 웹의 가치와 집단적 기록의 힘을 기념
10월 27일 — Wayback to the Future: Celebrating the Open Web
- 워싱턴 D.C. 조지타운대 Riggs Library에서 개최
- Foundation for American Innovation, Massive Data Institute, Internet Archive 공동 주최
- 개방적이고 실험적이었던 과거 웹의 가치를 되새김과 동시에, 현재의 집중화 및 폐쇄화 흐름 속에서 자유로운 인터넷 생태계의 지속 가능성 및 웹의 미래에 대한 토론
- Vint Cerf(Google), Cindy Cohn(EFF), Jon Stokes(Ars Technica) 등 연사 참여
디지털 기억의 미래
- 1조 개 웹페이지 보관은 단순한 수치 이상의 의미를 지님
- 이 데이터는 이민 사례, 개인 역사, 학술 연구, 탐사 저널리즘 등 여러 방면에서 Wayback Machine이 공공의 핵심 자원으로 자리 잡게 함
- Internet Archive는 앞으로도 “모두의 접근이 가능한 공공 웹 도서관” 비전을 지속함
- 1조 페이지 달성은 끝이 아닌 새로운 시작점으로,
AI 시대의 정보 접근·보존 방식에 대한 논의도 이어질 예정임 - Brewster Kahle은 “우리가 함께 만들어온 웹은 집단 지성의 거대한 기록물이며,
이를 지켜가는 일은 인류의 책임”이라고 강조함
Hacker News 의견
-
뭔가 바라는 점이 있다면 archive.org의 피어 미러 네트워크임, IA의 웹 애플리케이션은 여러 날짜를 클릭하려 하면 금방 접속에 제한이 걸리는 경향임, 토렌트와 같은 방식으로 archive.org 콘텐츠를 느리게 분산 미러링하여, 데이터를 유저가 선택적으로 확인하고 검증할 수 있는 대체 소스로 등장할 수 있다면 멋질 것 같음, 현재는 ArchiveBox로 내 아카이브를 운영 중인데 내 개인 필요에만 쓰게 됨, 대부분은 IA를 여전히 사용 중임, 정말 많은 자료가 있기 때문임
-
Archive Team은 Internet Archive와 별개로 인터넷 아카이브의 일부를 분산 백업하는 프로젝트를 진행한 적 있음, 자세한 내용과 진행 상황은 INTERNETARCHIVE.BAK 프로젝트 위키에서 확인 가능함, 하지만 최근에는 잠정 중단 상태에 있음
-
웹 아카이브가 정말 느릴 수 있다는 점 확실히 경험했음, AI 스크래퍼들이 대역폭에 병목을 만들기도 하는 것 같음, 어떤 디지털 아카이브는 Common Crawl처럼 과학자 계정을 따로 만들어야 접근이 가능함, 데이터 양이 방대하고 저장 목표도 크기 때문에 인터넷뿐 아니라 시간이라는 추가 차원까지 저장함, 데이터가 너무 많아 탐색이나 검색이 굉장히 어려워 실제로 거의 쓸 수 없는 상태가 됨, 그래서 나는 도메인 정보를 얻으려고 Internet-Places-Database 메타데이터 링크 프로젝트를 직접 만들었음
-
예전에 스크래핑 프로젝트를 할 때 과거 스냅샷을 찾아보려고 했는데 Internet Archive에서 정보를 뽑아내는 게 뜻밖에 어렵다는 걸 알았음, pywaybackup을 사용하면서 한참 나아짐을 느꼈음
-
왜 IA가 IPFS 인스턴스를 운영하지 않는지, 혹은 운영 중인데 별로 인기가 없는지 궁금함, IPFS 미러 서비스는 이미 꽤 빠르게 작동하는 곳이 많음, IA에서 겪었던 문제 중 하나는 아주 오래된 웹사이트들이 JS나 CSS 문제로 제대로 렌더링이 안 되는 경우임, 이런 것들을 소급해서 고칠 방법이 있을지도 고민임, 만약 그 당시에 가능한 코드를 전부 내보낼 수 있다면 사이트를 더 완전하게 복구할 수 있을 텐데, IA에서 도메인을 클릭하면 데스크톱 클라이언트가 낮은 우선순위 큐에 원하는 만큼 WAR 파일을 천천히 받아서, 오프라인 상태에서도 완벽히 볼 수 있으면 정말 좋겠음
-
남는 저장 공간을 archive.org에 “기부”하는 시스템을 구상해 본 적 있음, 클라이언트를 실행해서 1TB를 제공하겠다고 하면 서버가 가장 희귀한 콘텐츠를 내 컴퓨터로 전송하게 하는 구조였음, 토렌트 기반이며 이 위에 손쉽게 콘텐츠 전송 시스템도 얹을 수 있음, 데이터를 이 네트워크에서 받아오는 형태로 쓸 수도 있음, 몇몇 아카이브 팀에 메일 보냈지만 아무도 관심을 보이지 않아 결국 만들지 않음
-
-
나는 Internet Archive에서 데이터센터/인프라팀을 운영 중임, 이번 가을 진행하는 각종 행사에 모두를 초대하고 싶음, 티켓값이 부담스러우면 꼭 이메일(프로필 참조)로 연락 바랍니다, 최대한 참여 기회 만들어 드릴 예정임
-
IA 팀이 전 세계에서 분산 행사를 여는 건지, 아니면 SF에 모여서 하는지 궁금함, 그리고 정말 인류에 중요한 일을 해 주시는 것, 감사드림
-
IA에서 일해보고 싶었지만 채용 기회가 정말 드뭄
-
이번 성과를 이루는 데 사용된 기술적인 뒷이야기들이 궁금함, 예를 들어 웹 크롤링 방법이나 저장 방식 등 세부 기술에 대해 듣고 싶음
-
어떤 행사들인지 구체적으로 궁금함
-
-
1조 개 웹페이지 아카이브라는 성취가 대단함, 하지만... 이걸 검색할 수 있는 방법이 없음, 결국 아는 url을 안다면 그걸 직접 입력해야 찾아볼 수 있는데, 이러면 서비스의 유용성이 크게 줄어듦, 예를 들어 특정 아티스트 이름이나 파일명, 혹은 이미지 내용을 전부 검색할 수 있으면 좋겠음
-
그걸 다 인덱싱하는 건 정말 악몽일 것 같음
-
이 기능이 Kagi 같은 곳에서 가능했었던 것으로 기억하는데, 지금은 어디서 쓰는지 못 찾겠음
-
이 과정에서 프라이버시 문제를 생각해봐야 함, robots.txt 규정이 무용지물이 되어버리고, 사이트 삭제도 사실상 소급해서 불가능해짐, 결국 공개 자료라 막으려 해도 어쩔 수 없긴 하지만, IA 전체를 검색 가능하게 만드는 것은 정말 나쁜 생각임
-
나는 GPT 웹 검색을 사용해서 종종 교재를 IA에서 찾아달라고 요청함, 교재 검색에는 잘 맞지만, 일반 웹페이지에는 얼마나 쓸만한지 잘 모르겠음
-
-
IA에 추가로 자료를 제공하려면 ArchiveTeam이 관련 자원봉사 그룹임, IA로 데이터를 보내는 곳이며 자세한 정보는 archiveteam.org에서 확인 가능함
- 누군가는 무엇이 보관할 가치가 있는 자료인지 사람이 정해야 할 필요가 있을 것임, 누군가 IA를 자기 여행 사진 무료 저장소로 쓰지 않게 하려면 필터가 필요함
-
Internet Archive는 AI 회사들과 큰 거래를 맺어야 한다고 생각함... 예를 들면, 우리는 모든 데이터가 담긴 트럭 한 대를 AI 회사에 제공할 테니, IA가 앞으로 몇 년간 운영될 수 있도록 상당한 기부를 해 달라는 식임, 만약 돈을 제공하지 않는다면 그대로 접근은 허용하지만 다운로드 속도를 엄청 늦추고, 데이터를 다 받으려면 수년이 걸리게 만들 수 있음
- 이렇게 하면 지금까지 쌓아온 공공재로서의 신뢰가 깨질 것임, 대부분의 사람들은 자신이 만든 콘텐츠를 IA가 보관하는 건 괜찮지만, 만약 그것으로 돈을 벌기 시작하면 분명히 엄청난 반발이 생길 것임
-
Internet Archive와 Common Crawl이 협력한 적이 있는지 궁금함, 두 기관의 범위나 인프라를 비교하고 싶음, 목적은 다르지만 실질적으로 비슷한 일을 하고 있음
- IA는 CC에서 수집한 WARCs를 비롯해 ArchiveTeam과 같은 여러 그룹에서 수집한 데이터를 받아들임
-
이번 주 오프라인 행사에 출연하는 아티스트 Sam Reider가 정말 훌륭함, 매우 기대됨
-
결국 웹 전체를 크롤링하지 않고도, Archive에 돈만 내면 모든 데이터를 확보할 수 있다는 의미인지 궁금함
-
연관 블로그 포스트에서 사연을 모으고 있으니 참고바람
https://blog.archive.org/2025/09/… -
인터넷 역사에 있어서 정말 대단한 이정표임