# 인터넷 아카이브 차단은 AI를 막지 못하지만 웹의 역사 기록을 지워버림

> Clean Markdown view of GeekNews topic #27721. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=27721](https://news.hada.io/topic?id=27721)
- GeekNews Markdown: [https://news.hada.io/topic/27721.md](https://news.hada.io/topic/27721.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-03-22T09:35:34+09:00
- Updated: 2026-03-22T09:35:34+09:00
- Original source: [eff.org](https://www.eff.org/deeplinks/2026/03/blocking-internet-archive-wont-stop-ai-it-will-erase-webs-historical-record)
- Points: 6
- Comments: 1

## Summary

AI 스크래핑을 막겠다는 언론사의 결정이 정작 웹의 집단 기억을 지우고 있습니다. 인터넷 아카이브는 상업적 AI와 무관한 비영리 보존 기관인데, 그 접근을 차단하면 기사 수정 전후의 맥락을 추적할 수 있는 **유일한 기록**이 사라집니다. 검색과 아카이빙이 공정 이용으로 인정된 지 오래인 만큼, 이번 조치는 기술 통제라기보다 공공 기록의 단절이라는 더 큰 문제를 드러냅니다.

## Topic Body

- 1990년대 중반부터 웹과 신문을 보존해온 **인터넷 아카이브**는 Wayback Machine을 통해 1조 개 이상의 웹페이지를 저장하고 있음
- 최근 **뉴욕타임스와 가디언** 등 주요 언론이 AI 스크래핑 우려로 아카이브의 크롤링을 차단하기 시작함
- 이러한 조치는 **웹의 역사적 기록 단절**을 초래하며, 기사 수정·삭제 전후의 변화를 확인할 수 있는 **유일한 기록**이 사라질 위험이 있음
- AI 학습에 대한 법적 분쟁과 별개로, **비영리 보존 기관을 차단하는 것은 공익 훼손**으로 지적됨
- 검색과 웹 아카이빙은 이미 **공정 이용으로 법적 합법성이 확립된 영역**이며, 이를 차단하면 미래 연구자들이 웹의 역사 기록을 잃게 됨

---

### 인터넷 아카이브 차단은 AI를 막지 못하지만 웹의 역사 기록을 지워버림
- **인터넷 아카이브(Internet Archive)** 는 1990년대 중반부터 웹과 신문을 보존해온 세계 최대의 디지털 도서관으로, **Wayback Machine**을 통해 1조 개 이상의 웹페이지를 저장하고 있음
- 최근 몇 달 사이 **뉴욕타임스(The New York Times)** 가 AI 콘텐츠 스크래핑 우려를 이유로 아카이브의 크롤링을 차단하기 시작했고, **The Guardian** 등 다른 언론사들도 이를 따르는 움직임을 보임
- 이러한 차단은 단순한 기술적 제한이 아니라 **역사적 기록의 단절**을 초래함
  - 인터넷 아카이브는 기사 수정·삭제 전후의 변화를 확인할 수 있는 **유일한 기록**이 되는 경우가 많음
  - 언론사들이 접근을 막으면 수십 년간 축적된 웹 기록이 사라질 위험이 있음
- AI 학습에 대한 법적 분쟁이 진행 중이지만, **비영리 보존 기관을 차단하는 것은 잘못된 대응**으로 지적됨
  - 인터넷 아카이브는 상업적 AI 시스템을 개발하지 않으며, **역사 보존이라는 공익적 목적**을 수행함
  - AI 접근을 통제하려는 과정에서 **도서관의 기록 보존 기능까지 훼손**하는 결과를 낳을 수 있음

### 아카이빙과 검색의 합법성
- **검색 가능하게 만드는 행위는 공정 이용(fair use)** 으로 오랜 기간 법적으로 인정되어 왔음
  - 법원은 검색 인덱스를 구축하기 위해 원본 자료를 복제하는 것이 불가피하다고 판단함
  - 구글이 전체 도서를 복제해 검색 데이터베이스를 만든 사례에서도 **변형적 목적(transformative purpose)** 으로 인정됨
- 인터넷 아카이브 역시 같은 원칙에 따라 운영됨
  - 물리적 도서관이 신문을 보존하듯, 아카이브는 **웹의 역사 기록을 보존**함
  - 연구자와 기자들이 매일 이를 활용하며, **위키피디아만 해도 249개 언어의 260만 개 뉴스 기사**를 아카이브에 링크함
  - 수많은 블로거, 연구자, 기자들이 **안정적이고 신뢰할 수 있는 출처**로 의존함
- ## 검색엔진을 보호하는 법적 원칙은 아카이브와 도서관에도 동일하게 적용되어야 함
  - 설령 법원이 AI 학습에 제한을 두더라도, **검색과 웹 아카이빙의 합법성은 이미 확립된 상태**임

### 역사 기록 보존의 위기
- 인터넷 아카이브는 약 30년간 웹의 역사 기록을 유지해왔음
- 주요 언론사들이 이를 차단하기 시작하면, **미래의 연구자들이 방대한 기록을 잃게 될 가능성**이 큼
- AI 학습과 관련된 법적 논쟁은 법정에서 해결되어야 하지만, **공공 기록을 희생시키는 것은 심각하고 되돌릴 수 없는 실수**로 경고됨

## Comments


### Comment 53531

- Author: neo
- Created: 2026-03-22T09:35:34+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47464818) 
- 사이트 운영자로서 **공격적인 AI 크롤러**들과 싸우는 중임  
  혹시 내 차단 규칙이 Internet Archive까지 막았을까 걱정됨  
  Facebook은 robots.txt를 무시하고 여러 IP로 요청을 분산시켜 crawl delay를 넘김  
  그래서 nginx에서 Facebook 전용 규칙을 따로 두었음  
  지금까지는 **JA3 해시 차단**이 가장 효과적이었음  
  하지만 TCP 지문 인식을 위해 hugin-net을 nginx에 감싸는 래퍼가 있었으면 함  
  Rust를 몰라서 LLM에게 부탁하기도 두려움  
  다만 이 방식은 **race condition** 문제가 있음. 첫 연결에서는 JA4 해시가 없고, AI 크롤러들은 IP당 한 번만 요청하므로 두 번째 요청을 막을 기회가 없음
  - Internet Archive도 robots.txt를 따르지 않음  
    그들은 [공식 블로그 글](https://blog.archive.org/2017/04/17/robots-txt-meant-for-sea...)에서 “웹 아카이빙의 미래는 robots.txt에 덜 의존할 것”이라 밝힘  
    또 다른 단체인 [Archiveteam](https://wiki.archiveteam.org/index.php?title=Robots.txt)도 robots.txt를 무시한다고 함  
    요즘 대형 아카이빙 단체들은 사이트 운영자 입장을 거의 고려하지 않는 듯함
  - JA3 **랜덤화나 위장** 같은 회피 기법은 탐지를 쉽게 우회함
  - 화이트리스트 키로 서명된 요청만 통과시키는 **봇 차단 우회 메커니즘**이 가능할지 궁금함  
    그렇게 하면 Internet Archive 크롤러만 허용할 수 있을 듯함

- 이제는 AI 스크래퍼를 완전히 막을 수 없다고 인정한 사람들이 어떻게 생각하는지 궁금함  
  인간 브라우저와 LLM 에이전트의 구분이 사라질 날이 머지않았음  
  그들은 실제 GUI 세션을 열고 브라우저로 페이지를 탐색하며 OS 수준에서 스냅샷을 찍어 콘텐츠를 복원할 수 있음  
  결국 **공개 웹에서 접근을 막는다는 개념 자체가 구식**이 될 것 같음  
  그렇다면 개별 호스트의 부담을 줄이는 방법은 무엇일까?  
  신뢰할 수 있는 중앙 아카이빙 기관이 생길까, 아니면 LLM의 ‘나쁜 행동’을 처벌하는 방식이 나올까?
  - 인터넷 법률에는 **실질적 집행력**이 거의 없음을 이미 배웠어야 함
  - 콘텐츠 해시를 제공하고, 실제 데이터는 **IPFS나 BitTorrent** 같은 곳에서 가져오게 하면 사이트 부하를 줄일 수 있음  
    브라우저가 이를 지원하면 **CDN의 효율성**을 중앙화 없이 얻을 수 있음
  - 아예 **공개 웹에 게시하지 않으면** 스크래핑 걱정이 사라짐  
    어쩌면 CDN이 데이터를 직접 판매하는 모델이 더 효율적일지도 모름
  - 지금은 수천 개의 AI 기업이 웹 전체를 긁고 있지만, **AI 버블이 꺼지면** 결국 몇몇만 남을 것임  
    그때는 지속적인 스크래핑 수요가 줄어들 것임
  - 진짜 문제는 **트래픽 부하와 대역폭 비용**임  
    기본적인 엔지니어링 감각과 회계 개념이 잊혀진 듯함

- 언론사들은 자신들의 콘텐츠가 AI 발전에 미친 영향을 **과대평가**함  
  그들이 존재하지 않았더라도 LLM 품질에는 큰 차이가 없었을 것임
  - Wikipedia, Reddit, 논문만으로는 한계가 있음  
    결국 언론 기사 같은 **다양한 텍스트**가 필요함
  - 웹이 AI 생성물로 넘쳐날수록 **인간이 쓴 텍스트의 가치**가 높아짐  
    AI 기업이 동의 없이 이를 사용하는 걸 막는 전략이 타당함

- 우리는 지금 **방화범을 벌주려다 도서관을 불태우는** 꼴임  
  방화범은 이미 떠났음
  - 하지만 실제로는 **도서관 방문자의 90%가 방화범**일지도 모름

- 그래서 **archive.is**가 만들어졌음  
  그 창립자를 추적해 처벌하려 하기보다, 유용한 프로젝트로서 지원해야 하지 않을까?
  - 동의함. archive.is가 사라지면 **archive.org이 독점**이 됨  
    archive.org은 사이트 소유자의 삭제 요청을 받아들이므로, 오래된 도메인을 사면 과거 기록을 지울 수도 있음
  - 하지만 archive.is의 창립자는 과거 **기자에게 DDoS 공격**을 한 전력이 있음  
    사용자를 공격에 끌어들였다는 점에서 찬양받을 인물은 아님

- 예전에 스팸 방지 시스템을 만들던 사람으로서, 앞으로는 사이트 접속에도 **‘택시 면허증’ 같은 인증 체계**가 생길 것 같음  
  예를 들어 Internet Archive가 서명된 HTTPS 요청을 보내면, 사이트는 그것이 진짜임을 확인할 수 있음  
  이는 **열린 인터넷 정신**에는 반하지만, 신뢰할 수 있는 크롤러를 구분하는 방법이 필요함
  - 나는 인간처럼 보이지 않는 크롤러에게 다음을 요구함  
    * 역방향 DNS가 존재하고, 그 도메인에 **행동 정책 페이지**가 있을 것  
    * IP 기반의 **TXT 레코드**로 누가, 언제, 얼마나 자주 접근하는지 명시할 것  
    이런 정보를 기반으로 자동 차단 결정을 내림  
    이미 **Amazon 요청을 기본 차단**하는 정책을 블로그에 기록했음

- **뉴욕타임스**는 끔찍하다고 생각함. 그래서 오히려 미래를 위해 반드시 **보존되어야** 함
  - 모든 언론의 **오피니언 기사**는 결국 선전물임  
    각 매체는 자기 이념에 맞는 글만 실음
  - 왜 그렇게 나쁘다고 생각하는지 궁금함. 나는 읽지 않음

- **EFF**는 AI에 대해 미온적임  
  AI가 인터넷과 일자리를 망치고 있는데도 강경한 입장을 취하지 않음  
  [후원사 목록](https://www.eff.org/thanks)을 보면 기업 후원자들이 많아, **자유 단체로서의 신뢰성**이 떨어짐  
  OSI나 EFF 같은 단체는 이미 **기업에 포섭**되어 해롭기까지 함

- Internet Archive에 **분산형 주거 IP 크롤러 프로그램**이 있다면 기꺼이 참여하고 싶음  
  다만 조작 방지 메커니즘이 필요함
  - Internet Archive는 없지만, [Archive Team Warrior](https://wiki.archiveteam.org/index.php/ArchiveTeam_Warrior)가 있음
  - IA는 모든 걸 **공개적으로 처리**하며, 심지어 부당한 DMCA 요청도 존중함
  - TLS를 그들 쪽에서 종료하면 간단함. 결국 **주거용 프록시**로 동작하게 됨

- 비료와 디젤을 함께 판매한다면 농업용 공급업체로 추정하는 게 합리적임  
  하지만 **농부가 아닌 사람에게 트럭 단위로 판매**한다면 의심하는 것도 당연함