# 뉴스 매체들이 AI 스크래핑 우려로 Internet Archive 접근을 제한

> Clean Markdown view of GeekNews topic #26699. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26699](https://news.hada.io/topic?id=26699)
- GeekNews Markdown: [https://news.hada.io/topic/26699.md](https://news.hada.io/topic/26699.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-02-15T09:46:06+09:00
- Updated: 2026-02-15T09:46:06+09:00
- Original source: [niemanlab.org](https://www.niemanlab.org/2026/01/news-publishers-limit-internet-archive-access-due-to-ai-scraping-concerns/)
- Points: 2
- Comments: 1

## Topic Body

- 주요 언론사들이 **AI 학습용 데이터 수집**을 막기 위해 Internet Archive의 접근을 차단하거나 제한 중임  
- **The Guardian**은 Internet Archive의 API와 Wayback Machine에서 기사 페이지를 제외하고, 일부 홈·토픽 페이지만 남김  
- **The New York Times**는 2025년 말부터 archive.org_bot을 robots.txt에 추가해 **크롤링을 전면 차단**함  
- **Gannett(USA Today Co.)** 를 비롯한 241개 뉴스 사이트가 최소 하나 이상의 Internet Archive 봇을 차단, 다수는 Common Crawl·OpenAI·Google AI도 함께 차단함  
- 이러한 조치는 **AI 기업의 무단 데이터 활용에 대한 대응**이자, 동시에 **디지털 기록 보존과 정보 접근성의 균형 문제**를 드러냄  

---

### 주요 언론사의 Internet Archive 접근 제한
- The Guardian은 **AI 기업이 Internet Archive를 통해 콘텐츠를 수집할 가능성**을 우려해 접근을 제한함  
  - API와 Wayback Machine의 기사 URL 인터페이스에서 자사 기사 페이지를 제외  
  - 지역 홈·토픽 페이지 등은 여전히 Wayback Machine에서 접근 가능  
  - Robert Hahn은 “AI 기업들이 구조화된 데이터베이스를 선호하며, Internet Archive의 API가 그 경로가 될 수 있다”고 언급  
- The Guardian은 **완전 차단은 하지 않았으며**, Internet Archive의 정보 민주화 사명을 존중한다고 밝힘  
  - 다만 향후 봇 관리 정책 검토 과정에서 입장을 재평가 중임  

### The New York Times와 Financial Times의 대응
- The New York Times는 **archive.org_bot을 robots.txt에 추가**하고 Internet Archive의 크롤러를 “하드 블록”함  
  - “Wayback Machine이 AI 기업을 포함한 제3자에게 Times 콘텐츠를 무제한 제공한다”고 설명  
- Financial Times는 **유료 콘텐츠 보호를 위해** OpenAI, Anthropic, Perplexity, Internet Archive 등 모든 관련 봇을 차단함  
  - 대부분의 FT 기사들이 유료화되어 있어, Wayback Machine에는 공개 기사만 남음  

### Reddit과 Internet Archive의 갈등
- Reddit은 2025년 8월 **Internet Archive의 접근을 차단**함  
  - 이유는 AI 기업들이 Wayback Machine을 통해 Reddit 데이터를 스크래핑한 사례 때문  
  - Reddit은 “플랫폼 정책을 위반한 AI 기업의 활동을 방지하기 위해 제한 조치”라고 설명  
- Reddit은 Google과 **AI 학습용 데이터 라이선스 계약**을 체결한 바 있음  

### Internet Archive의 입장과 대응
- 창립자 Brewster Kahle은 “출판사들이 Internet Archive 같은 도서관을 제한하면 **공공의 역사 기록 접근성이 줄어든다**”고 경고  
- Kahle은 Mastodon에서 “일부 컬렉션은 대량 다운로드가 불가하며, **속도 제한·필터링·Cloudflare 보안 서비스**를 사용 중”이라고 밝힘  
- 2023년 5월, 한 AI 기업이 대량 요청으로 서버 과부하를 일으켜 Internet Archive가 일시 중단된 사례가 있었음  
  - 이후 해당 기업은 사과와 기부를 진행함  

### 데이터 분석: 전 세계 뉴스 사이트의 차단 현황
- Nieman Lab은 **Ben Welsh의 1,167개 뉴스 사이트 데이터베이스**를 분석해 Internet Archive 관련 차단 현황을 조사함  
  - 241개 뉴스 사이트가 최소 하나의 Internet Archive 봇을 차단  
  - 87%는 **USA Today Co.(Gannett)** 소유 매체로, 2025년에 archive.org_bot과 ia_archiver-web.archive.org를 robots.txt에 추가함  
  - 일부 Gannett 사이트는 Wayback Machine에서 “이 URL은 제외되었습니다”라는 메시지를 표시함  
- Gannett은 “무단 데이터 수집 방지를 위한 새로운 프로토콜을 도입했다”고 밝혔으며, 2025년 9월 한 달 동안 **7,500만 개의 AI 봇을 차단**, 그중 7,000만 개가 OpenAI에서 발생했다고 보고함  
- Group Le Monde 산하 **Le Monde, Le Huffington Post** 등 3개 사이트는 세 개의 Internet Archive 크롤러를 모두 차단함  

### AI 관련 크롤러 차단의 확산
- Internet Archive뿐 아니라 **Common Crawl, OpenAI, Google AI** 등 주요 AI 크롤러도 함께 차단되는 추세  
  - 241개 중 240개 사이트가 Common Crawl을, 231개 사이트가 OpenAI·Google AI 봇을 차단  
- Common Crawl은 **상업적 LLM 개발과의 연계성**이 높다고 평가됨  

### 인터넷 보존과 정보 접근의 균형 문제
- Internet Archive는 **미국 내 가장 포괄적인 웹 보존 프로젝트**로, 많은 뉴스 조직이 자체 보존 역량을 갖추지 못한 상황  
- 2025년 12월, Poynter와 Internet Archive는 **지역 뉴스 보존 훈련 프로그램**을 공동 발표함  
- Hahn은 “Internet Archive는 선의로 운영되지만, **좋은 의도가 오용되는 부작용**이 발생하고 있다”고 언급함

## Comments


### Comment 51192

- Author: neo
- Created: 2026-02-15T09:46:07+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47017138) 
- 독립적인 **기록 보관**을 거부하는 언론이라면 그들의 뉴스를 신뢰할 수 없다고 생각함  
  AI 스크래핑 허용 여부는 상관없지만, 콘텐츠는 반드시 **외부에서 독립적으로 보관**될 수 있어야 함
  - 나도 같은 생각임. 독립적인 기록이 필수적임
  - 신뢰할 수 있는 뉴스 소스는 하나도 없다고 느낌. 대부분 **의도된 아젠다**를 밀고 있으며, 이제는 숨기지도 않음
- 이 문제에는 **컴플라이언스(규제 준수)** 측면이 있음  
  SOC 2나 HIPAA 같은 규제는 **감사 추적(audit trail)** 과 증거 보존을 요구함  
  그런데 보안 문서나 사고 대응 보고서가 웹에서 사라지면, 감사 증거가 끊겨서 기업이 인증 심사에서 떨어지는 사례를 봤음  
  결국 웹이 보존 불가능해지는 건 문화적 손실을 넘어서 **운영 리스크**가 되고 있음
  - 예시를 찾아봤는데 첫 결과부터 404였음  
    [AWS Compliance Reports](https://aws.amazon.com/compliance/reports/) 페이지가 바로 그런 사례임
  - 대형 금융사에서 SOC 감사를 여러 번 받아봤는데, 어떤 업무가 ‘**핵심적(critical)** ’인지 정의하는 과정에서 부서 간 충돌이 심했음  
    단순한 로그 정리 작업조차 중요도 논쟁이 생김
  - 결국 보험사들이 이런 문제를 피하려고 **문서의 종이 사본 보관**을 요구하게 될 것 같음  
    큰 손실 사건 몇 번이면 현실화될 듯함
  - [Page Vault](https://www.page-vault.com/) 같은 회사가 이미 이런 문제를 해결하려고 존재함
  - 그런데 이 댓글 작성자가 **AI 도구 계정**처럼 보인다는 의심도 있음  
    최근 HN에 이런 패턴의 계정이 많아져서 걱정됨
- AI 기업들이 Internet Archive를 한 번 긁는 대신, **거주용 프록시(residential proxy)** 를 써서 각자 사이트를 반복적으로 긁을 것 같음  
  결국 손해는 웹 전체를 스크랩할 자원이 없는 일반 사용자에게 돌아감  
  나는 콘텐츠가 **해시 기반으로 재호스팅**되는 웹을 꿈꿔왔음 — IPFS가 그 시도를 했지만 아쉽게도 실패했음
  - 실제로 AI 회사들이 같은 페이지를 **반복적으로 스크랩**함. 내 개인 사이트도 변동이 없어도 계속 요청이 옴
  - [IPFS](https://en.wikipedia.org/wiki/InterPlanetary_File_System)는 이런 구조를 목표로 했던 프로젝트였음
  - 베트남과 한국의 프록시 트래픽이 내 서버를 망가뜨리고 있음. 초당 3500 요청은 감당 불가임
  - 이미 AI 회사들이 **감염된 기기나 앱을 통한 프록시 네트워크**를 사용하고 있음
  - 이런 프록시는 오래 못 갈 거라 생각함. 상업적 압력으로 줄어들 것임  
    그런데 Common Crawl이 있는데도 왜 AI 회사들이 계속 직접 크롤링하는지 의문임
- Brewster의 **역사 기록 보존**에 대한 우려는 현실적임  
  별도의 아카이빙이 없으면 언론의 기사도 결국 사라지는 운명임  
  예를 들어 위키피디아 편집자가 Times 기사 링크를 안정적으로 확보하기 어렵다면, 결국 **WaPo 기사로 대체**될 것임  
  이것이야말로 **공유지의 비극**임
- 나는 **Linkwarden**이라는 오픈소스 프로젝트를 운영 중임  
  팀들이 외부 서비스에 의존하지 않고 **URL을 안정적으로 보존**할 수 있도록 돕는 도구임  
  HTML 스냅샷, 스크린샷, PDF, 리더뷰 등 여러 형식으로 저장함  
  클라우드 호스팅 버전([linkwarden.app](https://linkwarden.app))과 **셀프 호스팅 버전**([GitHub 저장소](https://github.com/linkwarden/linkwarden))이 있음
  - Linkwarden은 훌륭함. **SingleFile 확장**과 함께 쓰면 스크래퍼가 막히는 페이지도 저장 가능함  
    다만 UX 측면에서 ‘읽음/보관’ 표시 기능이 있으면 좋겠음
  - archive.org과의 **통합 방식**이 궁금함. 단순히 URL을 전송하는 건지, 아니면 클라이언트에서 가져온 데이터를 직접 저장하는 건지 알고 싶음
- 이 문제는 **과학 분야**에도 영향을 줌  
  메타데이터 오류가 늘고, Google Scholar 같은 과학 검색엔진도 무너지고 있음  
  일부 대형 과학 출판사들도 AI 봇을 차단하는 듯함
  - 게다가 Google 자체 검색 품질도 망가졌음. 점점 **정보의 시야가 좁아지는 느낌**임
  - 공공 자금으로 연구된 과학 결과를 AI 차단으로 접근 못 하게 하는 건 **공공의 이익 침해**임
  - 그래도 PubMed와 **정확한 검색 연산자** 덕분에 아직은 버티고 있음
- The Guardian과 NYT 같은 언론이 **Internet Archive와 Common Crawl**을 차단 중임  
  전체 뉴스 사이트의 20%가 두 곳 모두를 막고 있음  
  예시로 [realtor.com의 기사](https://www.realtor.com/news/celebrity-real-estate/james-van-der-beek-texas-spicewood-ranch-sale-kids-wife/)는 IA에서 429 오류로 아카이브 불가임
  - IA는 요청 시 아카이브를 중단하지만, **악성 스크래퍼**들은 그렇지 않음  
    결국 좋은 쪽은 막히고 나쁜 쪽만 남는 셈임
  - The Guardian이 정말 IA를 막는지 **근거를 요청**함. 직접 확인해보니 잘 작동했음
  - **브라우저 확장 기반의 크라우드소싱 아카이브**가 있으면 좋겠다고 생각함  
    다만 개인 정보가 포함된 페이지를 어떻게 걸러낼지가 과제임
- 내 첫 인상은 뉴스 기업들이 **저작권 문제**로 AI를 핑계 삼고 있다는 것임
  - 웹사이트 운영자로서 내 트래픽의 90% 이상이 **봇과 스팸**임  
    AI 회사들이 프록시를 쓰기 시작하면서 비대상 국가를 전부 차단했음  
    인터넷이 **병든 생태계**가 되어버렸음
- 언론사들이 **학술·저널리즘 연구용 비공개 아카이브**에는 더 호의적일지 궁금함  
  기업의 모델 학습용으로는 절대 제공하지 않는 조건이라면 가능할지도 모름
  - 이미 도서관에 **유료 라이선스 아카이브**를 제공하고 있음. 남용 방지가 가능함
  - 대부분의 언론사는 **콘텐츠 유통 계약(syndication)** 을 맺고 있음  
    문제는 LLM이 가치 사슬을 흡수하면서 **반환 가치가 없다는 점**임
  - 내부적으로는 아카이브를 갖고 있겠지만, **공개 접근성**이 문제임
- **크라우드소싱 브라우저 플러그인**으로 사용자가 본 페이지를 자동으로 아카이브에 전송하는 아이디어를 생각함  
  사용자가 허용한 도메인만 기록하고, 오픈소스라면 **프라이버시 걱정**도 줄어듦  
  자동 크롤링이 아니라 실제 사용자의 일부 뷰만 업로드하는 방식임
  - SingleFile이 이런 아카이빙을 꽤 잘함  
    다만 사이트가 **사용자 식별 정보**를 숨겨 넣을 수 있어서 개인정보 노출 위험이 있음
  - 또 다른 문제는, 사용자가 보낸 데이터가 **조작되지 않았음을 보장**하기 어렵다는 점임  
    역사적 기록으로 쓰기엔 신뢰성 확보가 어려움