2P by GN⁺ 2시간전 | ★ favorite | 댓글 1개
  • New York Times, The Atlantic, USA Today 등 주요 언론사가 Wayback Machine의 뉴스 보존을 차단하고 있어 중단 요구가 나옴
  • 주요 미디어 리더들은 Internet Archive와 협력해 모든 뉴스를 Wayback Machine에 보존하겠다고 공개 약속해야 함
  • 2026년은 30년 만에 처음으로 World Press Freedom Day에 주요 언론사 작업이 Internet Archive에 보존되지 않는 해로 제시됨
  • 언론사들이 금지 이유로 든 AI 우려는 가정적이며, 생성형 AI 시대에는 독립적 보존이 더 중요해짐
  • 검열과 권위주의, 기자 대상 살해 협박이 커지는 상황에서 중립적 제3자 보존은 보도가 사라지지 않게 만듦

차단 배경

  • 2026년은 30년 만에 처음으로 World Press Freedom Day에 New York Times, The Atlantic, USA Today 등 주요 언론사의 작업이 독립 비영리 Internet Archive에 보존되지 않는 해로 제시됨
  • New York Times는 올해 2월부터 Internet Archive에 Wayback Machine이 자사 기자들의 작업을 보존하지 못하게 하라고 요구함
  • Wired 보도에 따르면 USA Today는 Wayback Machine에 의존한 강력한 보도를 내면서도, 같은 보도가 Wayback Machine에 보존되는 것은 차단하고 있음
  • 100명 넘는 기자들이 Internet Archive의 언론 보존을 지지하는 서한을 전달한 뒤 The Atlantic CEO가 입장을 냈지만, 해결책을 찾겠다는 약속은 하지 않음

AI 우려와 Wayback Machine의 역할

  • 이들 매체가 Wayback Machine 금지 이유로 든 AI 우려전적으로 가정적인 것으로 다뤄짐
  • 생성형 AI는 원칙 있는 보도를 팩트체커로부터 숨길 이유가 될 수 없고, 오히려 Wayback Machine의 필요성을 더 키움
  • AI 기업들은 모방 아카이브 사이트처럼 규칙을 무시하고 출판사 웹사이트에서 동의 없이 뉴스를 가져갈 수 있으며, 이를 막을 수단은 거의 없다고 봄
  • Wayback Machine은 “archive”라는 단어를 쓰며 Internet Archive와 비슷하게 보이려는 서비스들과 다르고, 일시적 서비스가 아님
  • Wayback Machine은 청원에 서명하는 많은 사람들의 나이보다 더 오래 뉴스를 보존해 왔음
  • Wayback Machine은 페이월 우회 서비스가 아니라, 언론 보존을 위한 독립적 비영리 공공재로 다뤄짐
  • Internet Archive가 대부분의 Silicon Valley처럼 행동하지 않는 이유는 integrity이며, 이 점이 Internet Archive를 신뢰할 수 있고 장기적으로 운영될 대상으로 만든다고 봄

언론 보존과 공공성

  • 언론의 자유는 기사를 쓸 자유뿐 아니라, 그 작업이 세대를 넘어 읽히고 기억될 자유도 포함함
  • 검열과 권위주의가 커지면서 보도를 바꾸거나 사실을 지우라는 압력도 함께 증가하고 있음
  • 기자들은 자주 살해 협박을 받고, 지난 1년 동안 여러 기자들이 자신의 작업 때문에 사망했다고 밝힘
  • 이런 상황에서는 Wayback Machine의 중립적 제3자 보존을 강화해 기자들의 작업이 사라지지 않도록 해야 함
  • 보도는 동료와 유족뿐 아니라 역사의 눈에도 접근 가능해야 함
  • Wayback Machine은 온라인 뉴스 매체가 권력자를 위협하는 기사를 삭제하라는 압력에 더 잘 버틸 수 있게 만듦
  • 실제 저널리즘을 하는 뉴스 매체라면 이런 동맹을 지지하는 것이 자기 이익에도 부합함

요구와 참고 자료

  • 주요 미디어 리더십은 Internet Archive와 협력해 모든 뉴스를 Wayback Machine에 보존하겠다고 공개적으로 약속해야 함
  • 뉴스를 독립적으로 보존하는 방법을 찾는 일이 이렇게 어려워서는 안 됨
  • 참고 자료

Hacker News 의견들
  • archive.org가 robots.txt를 존중하고, 해당 사이트들이 크롤러의 색인을 막았기 때문에 이런 일이 생긴 것인지 궁금함
    robots.txt를 지키는 “올바른 행동”은 청원 응답을 받아야 하는 부담으로 돌아오고, 같은 지시를 무시한 쪽은 이익을 얻는 구조라서 실망스럽다

    • archive.org처럼 인지도 높은 크롤러가 robots.txt를 무시하면 소송이나 다른 압박을 받을 가능성이 큼
      이건 단순히 도덕적인 선택이 아니라 유일하게 합리적인 선택에 가깝고, “다른 쪽이 이익을 얻는” 이유는 약속에 가까운 의무가 너무 작거나 음지에 있는 주체에게는 소송까지 갈 유인이 작기 때문임
    • 맞음. nytimes.com의 robots.txt에는 이런 식의 조각이 있음: User-agent: archive.org_bot / Disallow: /
    • 이유는 AI 회사들이 콘텐츠를 훔치는 것을 막고 싶기 때문인데, Internet Archive가 전부 대신 프록시해주면 막을 수가 없음
      최신 뉴스를 긁어오지 못했다면 모든 대형 언어 모델은 훨씬 덜 유용했을 것임
    • 아니, archive.org는 robots.txt를 존중하지 않음. 직접 연락해서 내 사이트를 포함하지 말아 달라고 요청해야 함: https://blog.archive.org/2017/04/17/robots-txt-meant-for-sea...
    • DRM이 만든 것과 같은 멍청함임
      해적이 되라는 꼴인데, 해적은 자유롭기 때문임
  • Archive.org가 NYT와 다른 출판사 콘텐츠에 접근할 수 있으면, 사람들이 NYT에서 직접 대규모로 긁지 못하더라도 Archive.org를 통해 NYT 콘텐츠를 대량 수집할 수 있다는 게 문제로 보임
    Archive.org가 스크래퍼를 막는다면 출판사들이 다른 선택을 하고 Archive.org 접근을 허용할 수도 있음

  • 아이디어: 스크래핑은 허용하되 1년 동안 공개는 못 하게 하면 어떨까?

    • Archive가 LLM 크롤러에게 다시 기여하도록 강제할 수 있게 소송 공동기금도 마련해야 함
  • Financial Times가 NewsBank 서비스에서 30일 에스크로로 제공되는 것처럼, 이들도 에스크로를 둘 수 있을 것 같음

  • 음모론 모자를 쓰고 보면, 이들이 몰래 수정하고 예전 기사 버전은 존재하지 않았던 척할 수 있는 상태를 좋아하는 것도 일부 이유일 것 같음

  • 그 조직들의 광고를 본 적도 없고 구독료를 낸 적도 없는 사람들이, 그 조직들에게 뒷문을 열어두라고 요구하며 싸우겠다는 건가?

  • Times와 Atlantic 쪽에서 이 논쟁을 조금 알고 있음. 욕먹을 수도 있겠지만, 전자 쪽 고위 관계자에게 HN에서 흔한 유료벽 우회 방법을 어떻게 생각하느냐고 물었고, 그들이 그걸 들어본 적도 없다는 데 정말 놀랐음
    결국 30일 뒤 공개하고, 향후 필요해질 경우 하루 N회 이상 가져가지 못하게 하는 식의 접근 제한을 두는 게 적절한 균형이라는 데 동의했음. 내가 알기로 Internet Archive는 이 문제에 대해 적극적으로 접촉하지 않았고, 출판사뿐 아니라 Internet Archive에도 협상하라고 압박해야 함

    • 꽤 괜찮은 절충안처럼 보임. 뉴스 조직은 초기 페이지뷰 급증을 유지할 수 있고, 인터넷의 무료 정보/보편 도서관 역할도 유지됨
      그래도 잡지들은 자기 백카탈로그를 통제하고 싶어 할 것임. 지금도 도서관과 대학에 접근권을 팔고 있고, HN에서 여러 번 나온 것처럼 일부 뉴스 조직은 공개된 “수정 이력” 없이 기사를 바꾸거나 업데이트하고 싶어 할 수 있음
    • Internet Archive가 정기적으로 유료벽 우회에 쓰이나? 보통은 archive.is이고, IA와는 관련이 없음
    • “관련성이 생길 경우” 하루 N회 이상 가져가지 못하게 한다는 건 어느 쪽이든 그들에게 이득 아닌가?
      어디선가 불행한 디지털 통계 대시보드를 띄워놓고, 그 숫자 숭배가 저널리즘의 본래 정신을 대체한 건 아닌지 궁금해짐
    • 그리 놀랍지 않음. 이들은 잘못된 시대의 잘못된 모델과 잘못된 인센티브로 일하고 있음
      아직도 데이터와 정보가 희소하고 자신들이 유일한 진실의 원천인 세계에 사는 것처럼 행동함. 지금은 뒤집혀서 단일한 기준 진실은 없지만 데이터와 정보는 풍부하고, 그 풍요에는 거짓 데이터와 거짓말도 포함됨. NYT와 Atlantic이 최고의 날에 하는 탐사보도는 세상에 가치를 더하지만, 기자들은 접근 가능하길 바라는데도 기관은 그 작업을 숨기고 격리하려 함. 이상적으로는 모든 아이가 NYT와 Atlantic으로 영어를 배우고, 그 기록 매체들과 함께 자라며 세상을 보게 될 수 있지만 현재 모델은 그걸 허용하지 않음. 후원과 Wikimedia식 재단을 섞은 방식이 더 맞을 수 있음. 기관과 사명을 사랑하는 독자가 원하는 만큼 내고, 금액에 따라 혜택을 받으며, 기여금은 기금으로 들어가 투자되고 그 수익이 운영 예산 일부로 배분되는 구조임. 정보가 풍부한 세계에서 고전적 저널리즘은 후원 기반 접근 없이는 살아남기 어렵다고 봄
    • 이런 “뉴스” 사이트는 HN에 아예 올라오지 않았으면 좋겠음. 기사가 사실이고 토론할 가치가 있다면 Reuters 같은 더 신뢰할 만한 조직이 보도하거나, 직접 올려야 할 1차 출처일 것임
      너무 자주 세부사항과 인용을 선택적으로 보도하거나, 나중에 완전히 거짓으로 드러난 신뢰할 수 없는 출처의 사실을 보도해 왔음. 후자의 경우 기사를 조용히 철회하니 대부분의 독자는 계속 거짓을 믿게 됨. 아마 그래서 보관되길 원하지 않는지도 모름. 작은 블로그 글을 올리는 편이 차라리 낫다. 편향되고 못 믿을 수는 있어도 독창적 생각이 있고 개인을 지원하며 광고가 없을 수 있기 때문임. 물론 여기 올라오는 뻔한 LLM 블로그가 많다는 건 또 다른 문제임
  • 이걸 기대하고 있음: (https://news.ycombinator.com/item?id=48070516)

  • 암호학적으로 검증 가능한 인터넷 아카이브가 필요함. web3나 nostr, gpg/pgp 같은 것 없이는 아마 불가능할 수도 있음

    • 서로 관련 없는 여러 아카이브가 있으면 충분히 괜찮을 것임
    • Archive가 모든 요청의 SSL 서명 같은 걸 공개하면 안 되나?
      opentimestamps처럼 Bitcoin에 얹는 방식으로 타임스탬프는 암호학적으로 검증할 수 있음
  • 서명은 했지만 솔직해져야 함
    Wayback Machine으로 오래된 NYT 기사를 읽은 횟수와, HN 상위 댓글이 비교적 새 기사 링크를 걸어 모두가 유료벽을 우회하려고 방문한 횟수를 원그래프로 그리면 완전한 원 하나가 될 것임

    • 보관본이 없었다면 그 기사를 보기 위해 NYT에 돈을 냈을까? 그랬을 것 같지 않음