1P by neo 1달전 | favorite | 댓글 1개
  • 인터넷의 방대함과 콘텐츠의 소멸

    • 수백억 개의 웹페이지가 존재하는 인터넷은 현대 생활의 방대한 저장소임.
    • 그러나 사용자가 의존하는 콘텐츠는 때때로 사라짐.
    • Pew Research Center의 새로운 분석에 따르면, 온라인 콘텐츠는 매우 일시적임을 보여줌.
      • 2013년에서 2023년 사이에 존재했던 모든 웹페이지의 4분의 1이 2023년 10월 기준으로 더 이상 접근 불가 상태임.
      • 이는 대부분 특정 웹페이지가 삭제되거나 제거되었기 때문임.
  • 디지털 부패의 발생

    • 정부 및 뉴스 웹사이트, 그리고 Wikipedia 페이지의 "참고 문헌" 섹션을 조사함.
      • 뉴스 웹페이지의 23%가 최소 하나 이상의 깨진 링크를 포함함.
      • 정부 웹사이트의 21%가 최소 하나 이상의 깨진 링크를 포함함.
      • Wikipedia 페이지의 54%가 더 이상 존재하지 않는 페이지로 연결되는 링크를 포함함.
  • 소셜 미디어에서의 디지털 부패

    • 2023년 봄 동안 소셜 미디어 플랫폼 X(당시 Twitter)에서 트윗의 실시간 샘플을 수집하고 3개월 동안 추적함.
      • 트윗의 약 5분의 1이 게시 몇 달 후에는 더 이상 공개적으로 보이지 않음.
      • 이 경우의 60%는 원래 트윗을 게시한 계정이 비공개, 정지되거나 완전히 삭제되었음.
      • 나머지 40%는 계정이 존재하지만 개별 트윗이 삭제됨.
  • 비공개 링크와 웹페이지 정의

    • 인터넷에서 존재했지만 현재 접근 불가한 페이지의 정의에는 여러 가지가 있음.
      • 페이지가 더 이상 호스트 서버에 존재하지 않거나, 호스트 서버 자체가 더 이상 존재하지 않음.
      • 페이지 주소는 존재하지만 콘텐츠가 변경되었음.
      • 페이지가 존재하지만 특정 사용자(예: 시각 장애인)가 읽기 어려움.
    • 이 보고서는 첫 번째 정의에 집중함: 더 이상 존재하지 않는 페이지.
  • 지난 10년간의 웹페이지

    • Common Crawl 아카이브에서 무작위로 약 100만 개의 웹페이지 샘플을 수집함.
      • 2013년부터 2023년까지 수집된 모든 페이지의 25%가 2023년 10월 기준으로 더 이상 접근 불가 상태임.
      • 2013년에 수집된 페이지의 38%는 2023년에 더 이상 접근 불가 상태임.
  • 정부 웹사이트의 링크

    • 2023년 3월/4월에 수집된 정부 웹사이트의 약 50만 페이지를 샘플링함.
      • 페이지의 86%는 내부 링크를 포함하며, 6%는 더 이상 접근 불가 상태임.
      • 전체적으로 조사된 정부 웹페이지의 21%가 최소 하나 이상의 깨진 링크를 포함함.
  • 뉴스 웹사이트의 링크

    • 2023년 3월/4월에 수집된 뉴스 웹사이트의 약 50만 페이지를 샘플링함.
      • 뉴스 사이트의 94%는 최소 하나 이상의 외부 링크를 포함하며, 23%의 페이지가 최소 하나 이상의 깨진 링크를 포함함.
  • Wikipedia의 참고 링크

    • 50,000개의 영어 Wikipedia 페이지를 무작위로 샘플링함.
      • 수집된 페이지의 82%가 최소 하나 이상의 참조 링크를 포함하며, 참조 링크의 11%가 더 이상 접근 불가 상태임.
  • Twitter의 게시물

    • 2023년 봄에 500만 개의 트윗을 수집하고 3개월 동안 추적함.
      • 수집된 트윗의 18%가 추적 기간 종료 시 더 이상 공개적으로 보이지 않음.
      • 삭제된 트윗 중 60%는 계정이 비공개, 정지되거나 삭제됨.
      • 트윗의 1%는 한 시간 이내에 삭제되며, 3%는 하루 이내, 10%는 일주일 이내, 15%는 한 달 이내에 삭제됨.
  • 트윗의 생존 분석

    • 게시된 트윗의 절반이 게시 후 첫 6일 이내에 사라짐.
    • 트윗의 90%는 게시 후 46일 이내에 접근 불가 상태가 됨.
    • 삭제되었으나 나중에 다시 공개된 트윗의 6%가 존재함.
Hacker News 의견

해커뉴스 댓글 모음 요약

  • Facebook 페이지의 문제점

    • 많은 단체와 기업들이 Facebook 페이지만 사용하여 다른 웹 존재가 없게 됨. Facebook 계정이 필수로 요구됨.
  • 아카이빙 노력

    • CNN과 BBC 같은 웹사이트는 과거 콘텐츠를 아카이빙하려는 노력을 함. 예: 9/11 테러 관련 보도.
  • 인터넷 아카이브 지원

    • 인터넷 아카이브(archive.org)에 기부하여 오래된 콘텐츠 보존을 지원할 필요가 있음. 중요한 콘텐츠는 로컬 복사본을 만들어 두는 것이 좋음.
  • 뉴스 웹사이트 운영 경험

    • 2019년부터 뉴스 웹사이트를 운영하며, 매 시간마다 크롤러로 죽은 링크를 찾아 아카이브 링크로 대체함. 선거 다음 날 후보자 웹사이트가 사라지는 경우가 많음.
  • 웹사이트 수명 그래프

    • 2013년 이후 많은 웹사이트가 사라졌을 것으로 예상됨. 특히 커뮤니티 사이트(Angelfire, Geocities 등)의 사라짐이 큰 영향을 미침. 웹사이트 수명을 그래프로 나타내면 흥미로울 것임.
  • 과거 웹사이트의 문제점

    • 90년대 Angelfire에 호스팅된 첫 .com 웹사이트를 다시 보게 됨. 당시에는 괜찮았지만 현재 기준으로는 부적절한 내용이 많음.
  • 인터넷의 일시성

    • 인터넷의 본질적인 일시성을 받아들여야 함. 아카이빙을 원한다면 오프라인 복사본을 만드는 것이 좋음. PDF/A 형식이 아카이빙에 적합함.
  • SEO 문제

    • 현재 웹의 대부분이 SEO 스팸으로 가득 차 있음.
  • 링크 깨짐 문제

    • 인터넷의 큰 문제로, 콘텐츠는 여전히 존재하지만 링크가 깨지는 경우가 많음. 도서관의 DOI 시스템처럼 두 단계 시스템이 도움이 될 수 있음.
  • 망각과 용서의 중요성

    • 모든 것이 영원히 남아있는 세상은 끔찍할 것임. 가치 있는 콘텐츠를 보존하려는 노력이 필요하며, 그 가치는 더 높이 평가됨.