위키백과, Archive.today 사용 중단 및 69만5천 개 링크 삭제 착수
(arstechnica.com)- 영어 위키백과가 Archive.today 사이트를 블랙리스트에 추가하고 링크 삭제를 시작함
- 해당 사이트가 블로그를 대상으로 DDoS 공격을 유도하고 웹 스냅샷을 조작한 사실이 확인됨
- 위키백과 편집자들은 사이트 신뢰성 훼손과 사용자 기기 악용 위험을 이유로 사용 중단에 합의함
- 약 40만 개 문서에 69만5천 개 링크가 포함되어 있으며, 대부분 다른 아카이브 서비스로 대체 가능하다고 평가됨
- 편집자들에게 Internet Archive, Ghostarchive, Megalodon 등으로 교체하거나 삭제하도록 권고됨
위키백과의 Archive.today 차단 결정
- 영어 위키백과가 Archive.today를 블랙리스트에 추가하기로 결정함
- 결정 배경은 해당 사이트가 블로그를 대상으로 한 DDoS 공격에 사용된 사실 때문임
- 위키백과 논의 과정에서 사이트가 웹페이지 스냅샷을 조작해 공격 대상 블로거의 이름을 삽입한 사례가 발견됨
- 위키백과 편집자들은 사이트 운영자가 여러 가명을 사용해 신원을 숨겼다는 블로그 게시물에 대한 보복으로 조작이 이루어진 것으로 파악함
위키백과 커뮤니티의 합의 내용
- 위키백과의 공식 업데이트에 따르면, Archive.today를 즉시 사용 중단(deprecate) 하고 스팸 블랙리스트에 추가하거나 편집 필터로 차단하기로 함
- 또한 기존 링크를 모두 삭제하기로 결정함
- 커뮤니티는 “사용자 컴퓨터를 하이재킹해 DDoS 공격을 수행하는 사이트로 독자를 유도해서는 안 된다”는 정책(WP:ELNO#3)을 근거로 제시함
- 아카이브된 페이지의 내용이 조작된 증거가 제시되어, 사이트의 신뢰성이 손상된 것으로 평가됨
링크 규모와 대체 가능성
- Archive.today 링크는 약 40만 개 문서에 69만5천 개 이상 포함되어 있음
- 사이트가 종종 뉴스 유료벽(paywall)을 우회하는 용도로 사용되어 왔음
- 현상 유지 의견도 있었으나, 분석 결과 대부분의 링크는 다른 아카이브로 대체 가능하다고 확인됨
- 일부 편집자들은 링크 제거 및 대체 절차를 구체화하는 작업을 시작함
편집자 대상 가이드라인
- 새로 게시된 Wikipedia:Archive.today_guidance 문서는 편집자들에게 링크 제거 및 교체 방법을 안내함
- 대상 도메인은 archive.today, archive.is, archive.ph, archive.fo, archive.li, archive.md, archive.vn 등임
- 원본 소스가 여전히 온라인에 있고 내용이 동일한 경우 Archive.today 링크를 삭제할 수 있음
- 또는 Internet Archive, Ghostarchive, Megalodon 등 다른 아카이브 서비스로 교체 가능함
- 원본이 인쇄물 등으로 존재하거나, 단순 편의 목적의 링크인 경우 아카이브 링크 자체를 제거할 수 있음
위키백과 내 신뢰성 및 보안 강화 조치
- 이번 조치는 위키백과의 신뢰성과 사용자 보호 강화를 위한 조치로 평가됨
- 커뮤니티는 사이트 조작 및 악성 행위에 대한 명확한 대응 기준을 세우는 계기로 보고 있음
- 향후 링크 제거 작업의 효율적 진행 방안이 추가 논의될 예정임
Hacker News 의견들
-
최근 archive.today를 겨냥한 조직적 캠페인 가능성에 대한 글을 봤음
archive.today의 기술적 구조가 실제로 어떻게 작동하는지 더 깊이 다룬 자료가 있는지 궁금함. 단순한 AI 검색 결과나 이전 HN 스레드 이상의 정보가 필요함- 만약 그들이 조직적인 명예훼손 캠페인의 대상이라면, 다른 사람의 블로그를 DDoS하거나 보관된 페이지를 수정하는 건 스스로에게 도움이 안 됨
- archive.today는 내게 꽤 잘 작동함. archive.org가 실패하는 경우에도 성공하는 경우가 많음
archive.org는 삭제 요청을 따르기 때문에, archive.today가 삭제를 거부하는 콘텐츠를 보존하기 때문에 공격받는 건 아닐까 생각함 - 최근 여러 사이트가 Internet Archive를 차단하기 시작했다는 뉴스도 있었음. 정보 전쟁의 다음 단계로 가는 느낌임
- 그 글이 AI가 쓴 것처럼 들림. 요약 위주로 구성돼 있고, 작성자 정보도 없음. AI 감지기가 울림
-
누군가를 도싱(doxing) 하는 건 의미가 없다고 생각함. 특히 일반 사용자에게 유용한 서비스를 제공하는 사람이라면 더더욱 그렇다고 봄
하지만 archive.today가 사용자들을 봇넷으로 만들어 DDoS 공격을 하거나, 보관된 페이지의 내용을 바꾸는 건 문제라고 생각함.
이런 행위는 사이트가 악성코드에 감염된 것처럼 보이게 하고, 보관된 콘텐츠의 신뢰성을 떨어뜨림. 위키백과가 차단한 이유를 이해함- 예전엔 도싱이란 말이 비공개 정보를 공개하는 행위를 의미했음. 하지만 지금은 공개된 정보를 모은 것만으로도 도싱이라 부르는 건 과함
공개 정보만으로 조사한 경우라면 비윤리적이라고 보긴 어려움 - 아이러니하게도, 영구 보존을 내세우는 사이트가 자신이 언급된 글을 내리려 한다는 점이 흥미로움. ‘칼로 흥한 자 칼로 망함’ 같은 상황임
- 이런 문제는 블록체인 기반 분산 검증 시스템으로 해결할 수도 있을 것 같음. 원본을 잃지 않으면서 수정 이력을 관리할 수 있을 것임
- 웹 아카이브 사이트는 HTML을 약간 수정해야 하는 경우가 많음. 링크 경로를 바꾸는 등 사용성을 위한 변경은 자연스러움
문제는 archive.today의 경우 그 변경이 의도적 조작처럼 보인다는 점임 - 보관된 페이지의 진위성이 핵심 쟁점임. 앞으로 이 부분이 논의의 중심이 되어야 함
- 예전엔 도싱이란 말이 비공개 정보를 공개하는 행위를 의미했음. 하지만 지금은 공개된 정보를 모은 것만으로도 도싱이라 부르는 건 과함
-
archive.today의 X/Twitter 캡처 중 일부가 “advancedhosters” 계정으로 로그인된 상태에서 저장된 걸 발견했음
이 계정은 키프로스에 있는 웹호스팅 회사와 연관돼 있고, 최근에는 archive.today 운영자(‘Volth’라는 별칭 사용)와 사이트 소유자 간의 비공개 이메일을 공개한 글을 링크함
이전 게시물은 친러·반우크라이나 기사를 archive.today로 보관한 링크였음. 뭔가 흥미로운 단서 같음- 그 계정은 기부받은 계정일 수도 있음. archive.today 계열 사이트들이 종종 유료 구독 계정을 이용해 페이월을 우회하곤 함
다만 이런 방식은 합법적 비영리 기관인 Internet Archive와 달리 범죄 행위와 구분하기 어려운 운영 방식임 - “흥미로운 단서”라고 하지만, 실제로 무엇으로 이어질지는 불분명함
- 그 계정은 기부받은 계정일 수도 있음. archive.today 계열 사이트들이 종종 유료 구독 계정을 이용해 페이월을 우회하곤 함
-
작년에 archive.today에서 보관된 페이지가 수정되는 현상을 봤음
예전엔 Reddit 보관 페이지 우측 상단에 사용자명이 있었는데, 어느 순간 사라졌음. 문제는 과거 캡처에서도 소급 수정이 이루어졌다는 점임
스크린샷 탭에서는 여전히 이름이 남아 있어 원본과 차이가 남. 처음엔 사소하다고 생각했지만, 최근 사건들을 보면 그렇지 않은 듯함- 하지만 그건 악의적이라기보다 로그인 계정 노출 방지를 위한 조치일 수도 있음.
만약 Reddit의 게시글 내용 자체를 수정했다면 그건 전혀 다른 문제겠지만, 단순히 계정 정보라면 이해할 수 있음
- 하지만 그건 악의적이라기보다 로그인 계정 노출 방지를 위한 조치일 수도 있음.
-
많은 사람이 모르지만, Perma.cc는 위키백과 같은 곳에서 쓰기 적합한 공식 아카이빙 도구임
자세한 내용은 위키백과 문서에도 있음- 다만 10개 링크 이후부터는 유료 구독이나 기관 계정이 필요함. 누구나 편집할 수 있는 백과사전에는 부적합함
- 위키백과가 이런 기능을 직접 구축하는 게 낫다고 생각함. 이미 CDN도 자체 운영하니까 가능할 듯. 다만 페이월 우회는 위험함
- 나도 이번 주에 Perma.cc로 옮겼는데, 이미지 많은 페이지는 오류가 나고 Reddit은 아예 차단함. 그래도 오픈소스라서 개선 여지는 있음
-
개인용으로 쓸 수 있는 셀프호스팅 아카이브 서버가 있을까 궁금함
ArchiveBox가 가장 유명한 것 같아 써볼 예정임. 다만 URL 리라이트 기능이 없어 불편할 듯함
기사 여러 페이지를 자동으로 연결해주는 기능이 있으면 좋겠음- 나는 Readeck을 선호함. 오픈소스이고, iOS·Android 앱도 있음
Content Scripts 기능으로 URL 변환 스크립트를 직접 작성할 수 있음 - 또 다른 대안으로는 Omnom이 있음. GitHub 저장소도 공개돼 있음
- 나는 Readeck을 선호함. 오픈소스이고, iOS·Android 앱도 있음
-
Ars Technica 기사를 보면, archive.today가 DDoS 공격과 콘텐츠 조작으로 위키백과에서 차단됐다고 함
개인적으로 archive.today는 불편해서 거의 쓰지 않음. 하지만 HN에서는 페이월 우회용으로 자주 쓰이는 듯함
문제는 운영자의 과거 행적과 익명성임. HN 사용자들의 읽기 습관 데이터를 많이 수집할 수 있는 위치에 있음- 나는 archive.today를 자주 씀. 예를 들어 The Economist 같은 페이월 기사를 읽을 때 대체 수단이 없음
- .today 도메인이 막히면 archive.ph, archive.is, archive.md 등 다른 TLD로 바꾸면 됨
- 기사 내용을 읽지 않고 토론하는 건 의미 없으니, 페이월 우회는 HN 토론의 질을 위해서라도 필요함
- “archive.today”는 사실 여러 archive.tld 도메인의 총칭임. HN에서 “홍보된다”는 말은 단순히 링크가 자주 공유된다는 뜻임
- 많은 사용자가 단순히 모두가 읽을 수 있게 하려는 목적으로 archive.today를 쓰는 것뿐임
-
흥미롭게도, archive.today가 DDoS에 연루된 건 이번이 처음이 아님
3년 전 HN 글에 따르면 archive.ph에서 XmlHttpRequest 코드로 DDoS 공격이 수행된 사례가 있었음
당시 공격 대상은 northcountrygazette.org였고, 사이트가 매우 느려져 실제로 효과가 있었던 듯함
그 사이트는 과거 페이월 우회자 추적을 위협하고, 아카이빙을 차단하는 robots.txt를 사용했음. 결국 폐쇄된 것으로 보임 -
제3자 사이트에 의존하지 않고 로컬에서 비가역적 웹 아카이브를 만드는 게 가능할까 궁금함
TLS 트랜잭션 전체를 기록해 나중에 재검증할 수 있지 않을까 생각함. 물론 인증서가 유출되면 위조 위험이 있음- 최소한 아카이브 사이트가 콘텐츠 해시값을 공개하면 나중에 변조 여부를 검증할 수 있을 것임
기술적으로는 Wayback Machine도 archive.today보다 나을 게 없음 - 하지만 TLS 세션을 재생해 검증하는 건 불가능함. 대신 공개 투명 로그 시스템이 대안이 될 수 있지만, 웹의 동적 특성 때문에 완벽하긴 어려움
- 최소한 아카이브 사이트가 콘텐츠 해시값을 공개하면 나중에 변조 여부를 검증할 수 있을 것임
-
여러 셀프호스팅 아카이브 솔루션이 있지만 완성도가 제각각임
개인용과 공개용을 모두 지원하는 표준 구현체가 하나쯤 나올 법한데 아직 없는 듯함- 나도 같은 생각임. 개인적으로 쓸 수 있는 간단한 대안이 있으면 좋겠음