뉴스 매체들이 AI 스크래핑 우려로 Internet Archive 접근을 제한

(niemanlab.org)

2P by GN⁺ 18시간전 | ★ favorite | 댓글 1개

주요 언론사들이 AI 학습용 데이터 수집을 막기 위해 Internet Archive의 접근을 차단하거나 제한 중임
The Guardian은 Internet Archive의 API와 Wayback Machine에서 기사 페이지를 제외하고, 일부 홈·토픽 페이지만 남김
The New York Times는 2025년 말부터 archive.org_bot을 robots.txt에 추가해 크롤링을 전면 차단함
Gannett(USA Today Co.) 를 비롯한 241개 뉴스 사이트가 최소 하나 이상의 Internet Archive 봇을 차단, 다수는 Common Crawl·OpenAI·Google AI도 함께 차단함
이러한 조치는 AI 기업의 무단 데이터 활용에 대한 대응이자, 동시에 디지털 기록 보존과 정보 접근성의 균형 문제를 드러냄

주요 언론사의 Internet Archive 접근 제한

The Guardian은 AI 기업이 Internet Archive를 통해 콘텐츠를 수집할 가능성을 우려해 접근을 제한함
- API와 Wayback Machine의 기사 URL 인터페이스에서 자사 기사 페이지를 제외
- 지역 홈·토픽 페이지 등은 여전히 Wayback Machine에서 접근 가능
- Robert Hahn은 “AI 기업들이 구조화된 데이터베이스를 선호하며, Internet Archive의 API가 그 경로가 될 수 있다”고 언급
The Guardian은 완전 차단은 하지 않았으며, Internet Archive의 정보 민주화 사명을 존중한다고 밝힘
- 다만 향후 봇 관리 정책 검토 과정에서 입장을 재평가 중임

The New York Times와 Financial Times의 대응

The New York Times는 archive.org_bot을 robots.txt에 추가하고 Internet Archive의 크롤러를 “하드 블록”함
- “Wayback Machine이 AI 기업을 포함한 제3자에게 Times 콘텐츠를 무제한 제공한다”고 설명
Financial Times는 유료 콘텐츠 보호를 위해 OpenAI, Anthropic, Perplexity, Internet Archive 등 모든 관련 봇을 차단함
- 대부분의 FT 기사들이 유료화되어 있어, Wayback Machine에는 공개 기사만 남음

Reddit과 Internet Archive의 갈등

Reddit은 2025년 8월 Internet Archive의 접근을 차단함
- 이유는 AI 기업들이 Wayback Machine을 통해 Reddit 데이터를 스크래핑한 사례 때문
- Reddit은 “플랫폼 정책을 위반한 AI 기업의 활동을 방지하기 위해 제한 조치”라고 설명
Reddit은 Google과 AI 학습용 데이터 라이선스 계약을 체결한 바 있음

Internet Archive의 입장과 대응

창립자 Brewster Kahle은 “출판사들이 Internet Archive 같은 도서관을 제한하면 공공의 역사 기록 접근성이 줄어든다”고 경고
Kahle은 Mastodon에서 “일부 컬렉션은 대량 다운로드가 불가하며, 속도 제한·필터링·Cloudflare 보안 서비스를 사용 중”이라고 밝힘
2023년 5월, 한 AI 기업이 대량 요청으로 서버 과부하를 일으켜 Internet Archive가 일시 중단된 사례가 있었음
- 이후 해당 기업은 사과와 기부를 진행함

데이터 분석: 전 세계 뉴스 사이트의 차단 현황

Nieman Lab은 Ben Welsh의 1,167개 뉴스 사이트 데이터베이스를 분석해 Internet Archive 관련 차단 현황을 조사함
- 241개 뉴스 사이트가 최소 하나의 Internet Archive 봇을 차단
- 87%는 USA Today Co.(Gannett) 소유 매체로, 2025년에 archive.org_bot과 ia_archiver-web.archive.org를 robots.txt에 추가함
- 일부 Gannett 사이트는 Wayback Machine에서 “이 URL은 제외되었습니다”라는 메시지를 표시함
Gannett은 “무단 데이터 수집 방지를 위한 새로운 프로토콜을 도입했다”고 밝혔으며, 2025년 9월 한 달 동안 7,500만 개의 AI 봇을 차단, 그중 7,000만 개가 OpenAI에서 발생했다고 보고함
Group Le Monde 산하 Le Monde, Le Huffington Post 등 3개 사이트는 세 개의 Internet Archive 크롤러를 모두 차단함

AI 관련 크롤러 차단의 확산

Internet Archive뿐 아니라 Common Crawl, OpenAI, Google AI 등 주요 AI 크롤러도 함께 차단되는 추세
- 241개 중 240개 사이트가 Common Crawl을, 231개 사이트가 OpenAI·Google AI 봇을 차단
Common Crawl은 상업적 LLM 개발과의 연계성이 높다고 평가됨

인터넷 보존과 정보 접근의 균형 문제

Internet Archive는 미국 내 가장 포괄적인 웹 보존 프로젝트로, 많은 뉴스 조직이 자체 보존 역량을 갖추지 못한 상황
2025년 12월, Poynter와 Internet Archive는 지역 뉴스 보존 훈련 프로그램을 공동 발표함
Hahn은 “Internet Archive는 선의로 운영되지만, 좋은 의도가 오용되는 부작용이 발생하고 있다”고 언급함

▲

GN⁺ 18시간전 [-]

Hacker News 의견들

독립적인 기록 보관을 거부하는 언론이라면 그들의 뉴스를 신뢰할 수 없다고 생각함
AI 스크래핑 허용 여부는 상관없지만, 콘텐츠는 반드시 외부에서 독립적으로 보관될 수 있어야 함
- 나도 같은 생각임. 독립적인 기록이 필수적임
- 신뢰할 수 있는 뉴스 소스는 하나도 없다고 느낌. 대부분 의도된 아젠다를 밀고 있으며, 이제는 숨기지도 않음
이 문제에는 컴플라이언스(규제 준수) 측면이 있음
SOC 2나 HIPAA 같은 규제는 감사 추적(audit trail) 과 증거 보존을 요구함
그런데 보안 문서나 사고 대응 보고서가 웹에서 사라지면, 감사 증거가 끊겨서 기업이 인증 심사에서 떨어지는 사례를 봤음
결국 웹이 보존 불가능해지는 건 문화적 손실을 넘어서 운영 리스크가 되고 있음
- 예시를 찾아봤는데 첫 결과부터 404였음
  AWS Compliance Reports 페이지가 바로 그런 사례임
- 대형 금융사에서 SOC 감사를 여러 번 받아봤는데, 어떤 업무가 ‘핵심적(critical) ’인지 정의하는 과정에서 부서 간 충돌이 심했음
  단순한 로그 정리 작업조차 중요도 논쟁이 생김
- 결국 보험사들이 이런 문제를 피하려고 문서의 종이 사본 보관을 요구하게 될 것 같음
  큰 손실 사건 몇 번이면 현실화될 듯함
- Page Vault 같은 회사가 이미 이런 문제를 해결하려고 존재함
- 그런데 이 댓글 작성자가 AI 도구 계정처럼 보인다는 의심도 있음
  최근 HN에 이런 패턴의 계정이 많아져서 걱정됨
AI 기업들이 Internet Archive를 한 번 긁는 대신, 거주용 프록시(residential proxy) 를 써서 각자 사이트를 반복적으로 긁을 것 같음
결국 손해는 웹 전체를 스크랩할 자원이 없는 일반 사용자에게 돌아감
나는 콘텐츠가 해시 기반으로 재호스팅되는 웹을 꿈꿔왔음 — IPFS가 그 시도를 했지만 아쉽게도 실패했음
- 실제로 AI 회사들이 같은 페이지를 반복적으로 스크랩함. 내 개인 사이트도 변동이 없어도 계속 요청이 옴
- IPFS는 이런 구조를 목표로 했던 프로젝트였음
- 베트남과 한국의 프록시 트래픽이 내 서버를 망가뜨리고 있음. 초당 3500 요청은 감당 불가임
- 이미 AI 회사들이 감염된 기기나 앱을 통한 프록시 네트워크를 사용하고 있음
- 이런 프록시는 오래 못 갈 거라 생각함. 상업적 압력으로 줄어들 것임
  그런데 Common Crawl이 있는데도 왜 AI 회사들이 계속 직접 크롤링하는지 의문임
Brewster의 역사 기록 보존에 대한 우려는 현실적임
별도의 아카이빙이 없으면 언론의 기사도 결국 사라지는 운명임
예를 들어 위키피디아 편집자가 Times 기사 링크를 안정적으로 확보하기 어렵다면, 결국 WaPo 기사로 대체될 것임
이것이야말로 공유지의 비극임
나는 Linkwarden이라는 오픈소스 프로젝트를 운영 중임
팀들이 외부 서비스에 의존하지 않고 URL을 안정적으로 보존할 수 있도록 돕는 도구임
HTML 스냅샷, 스크린샷, PDF, 리더뷰 등 여러 형식으로 저장함
클라우드 호스팅 버전(linkwarden.app)과 셀프 호스팅 버전(GitHub 저장소)이 있음
- Linkwarden은 훌륭함. SingleFile 확장과 함께 쓰면 스크래퍼가 막히는 페이지도 저장 가능함
  다만 UX 측면에서 ‘읽음/보관’ 표시 기능이 있으면 좋겠음
- archive.org과의 통합 방식이 궁금함. 단순히 URL을 전송하는 건지, 아니면 클라이언트에서 가져온 데이터를 직접 저장하는 건지 알고 싶음
이 문제는 과학 분야에도 영향을 줌
메타데이터 오류가 늘고, Google Scholar 같은 과학 검색엔진도 무너지고 있음
일부 대형 과학 출판사들도 AI 봇을 차단하는 듯함
- 게다가 Google 자체 검색 품질도 망가졌음. 점점 정보의 시야가 좁아지는 느낌임
- 공공 자금으로 연구된 과학 결과를 AI 차단으로 접근 못 하게 하는 건 공공의 이익 침해임
- 그래도 PubMed와 정확한 검색 연산자 덕분에 아직은 버티고 있음
The Guardian과 NYT 같은 언론이 Internet Archive와 Common Crawl을 차단 중임
전체 뉴스 사이트의 20%가 두 곳 모두를 막고 있음
예시로 realtor.com의 기사는 IA에서 429 오류로 아카이브 불가임
- IA는 요청 시 아카이브를 중단하지만, 악성 스크래퍼들은 그렇지 않음
  결국 좋은 쪽은 막히고 나쁜 쪽만 남는 셈임
- The Guardian이 정말 IA를 막는지 근거를 요청함. 직접 확인해보니 잘 작동했음
- 브라우저 확장 기반의 크라우드소싱 아카이브가 있으면 좋겠다고 생각함
  다만 개인 정보가 포함된 페이지를 어떻게 걸러낼지가 과제임
언론사들이 학술·저널리즘 연구용 비공개 아카이브에는 더 호의적일지 궁금함
기업의 모델 학습용으로는 절대 제공하지 않는 조건이라면 가능할지도 모름
- 이미 도서관에 유료 라이선스 아카이브를 제공하고 있음. 남용 방지가 가능함
- 대부분의 언론사는 콘텐츠 유통 계약(syndication) 을 맺고 있음
  문제는 LLM이 가치 사슬을 흡수하면서 반환 가치가 없다는 점임
- 내부적으로는 아카이브를 갖고 있겠지만, 공개 접근성이 문제임
크라우드소싱 브라우저 플러그인으로 사용자가 본 페이지를 자동으로 아카이브에 전송하는 아이디어를 생각함
사용자가 허용한 도메인만 기록하고, 오픈소스라면 프라이버시 걱정도 줄어듦
자동 크롤링이 아니라 실제 사용자의 일부 뷰만 업로드하는 방식임
- SingleFile이 이런 아카이빙을 꽤 잘함
  다만 사이트가 사용자 식별 정보를 숨겨 넣을 수 있어서 개인정보 노출 위험이 있음
- 또 다른 문제는, 사용자가 보낸 데이터가 조작되지 않았음을 보장하기 어렵다는 점임
  역사적 기록으로 쓰기엔 신뢰성 확보가 어려움

답변달기