3P by GN⁺ 6시간전 | ★ favorite | 댓글 1개
  • 1990년대 중반부터 웹과 신문을 보존해온 인터넷 아카이브는 Wayback Machine을 통해 1조 개 이상의 웹페이지를 저장하고 있음
  • 최근 뉴욕타임스와 가디언 등 주요 언론이 AI 스크래핑 우려로 아카이브의 크롤링을 차단하기 시작함
  • 이러한 조치는 웹의 역사적 기록 단절을 초래하며, 기사 수정·삭제 전후의 변화를 확인할 수 있는 유일한 기록이 사라질 위험이 있음
  • AI 학습에 대한 법적 분쟁과 별개로, 비영리 보존 기관을 차단하는 것은 공익 훼손으로 지적됨
  • 검색과 웹 아카이빙은 이미 공정 이용으로 법적 합법성이 확립된 영역이며, 이를 차단하면 미래 연구자들이 웹의 역사 기록을 잃게 됨

인터넷 아카이브 차단은 AI를 막지 못하지만 웹의 역사 기록을 지워버림

  • 인터넷 아카이브(Internet Archive) 는 1990년대 중반부터 웹과 신문을 보존해온 세계 최대의 디지털 도서관으로, Wayback Machine을 통해 1조 개 이상의 웹페이지를 저장하고 있음
  • 최근 몇 달 사이 뉴욕타임스(The New York Times) 가 AI 콘텐츠 스크래핑 우려를 이유로 아카이브의 크롤링을 차단하기 시작했고, The Guardian 등 다른 언론사들도 이를 따르는 움직임을 보임
  • 이러한 차단은 단순한 기술적 제한이 아니라 역사적 기록의 단절을 초래함
    • 인터넷 아카이브는 기사 수정·삭제 전후의 변화를 확인할 수 있는 유일한 기록이 되는 경우가 많음
    • 언론사들이 접근을 막으면 수십 년간 축적된 웹 기록이 사라질 위험이 있음
  • AI 학습에 대한 법적 분쟁이 진행 중이지만, 비영리 보존 기관을 차단하는 것은 잘못된 대응으로 지적됨
    • 인터넷 아카이브는 상업적 AI 시스템을 개발하지 않으며, 역사 보존이라는 공익적 목적을 수행함
    • AI 접근을 통제하려는 과정에서 도서관의 기록 보존 기능까지 훼손하는 결과를 낳을 수 있음

아카이빙과 검색의 합법성

  • 검색 가능하게 만드는 행위는 공정 이용(fair use) 으로 오랜 기간 법적으로 인정되어 왔음
    • 법원은 검색 인덱스를 구축하기 위해 원본 자료를 복제하는 것이 불가피하다고 판단함
    • 구글이 전체 도서를 복제해 검색 데이터베이스를 만든 사례에서도 변형적 목적(transformative purpose) 으로 인정됨
  • 인터넷 아카이브 역시 같은 원칙에 따라 운영됨
    • 물리적 도서관이 신문을 보존하듯, 아카이브는 웹의 역사 기록을 보존
    • 연구자와 기자들이 매일 이를 활용하며, 위키피디아만 해도 249개 언어의 260만 개 뉴스 기사를 아카이브에 링크함
    • 수많은 블로거, 연구자, 기자들이 안정적이고 신뢰할 수 있는 출처로 의존함
  • 검색엔진을 보호하는 법적 원칙은 아카이브와 도서관에도 동일하게 적용되어야 함

    • 설령 법원이 AI 학습에 제한을 두더라도, 검색과 웹 아카이빙의 합법성은 이미 확립된 상태

역사 기록 보존의 위기

  • 인터넷 아카이브는 약 30년간 웹의 역사 기록을 유지해왔음
  • 주요 언론사들이 이를 차단하기 시작하면, 미래의 연구자들이 방대한 기록을 잃게 될 가능성이 큼
  • AI 학습과 관련된 법적 논쟁은 법정에서 해결되어야 하지만, 공공 기록을 희생시키는 것은 심각하고 되돌릴 수 없는 실수로 경고됨
Hacker News 의견들
  • 사이트 운영자로서 공격적인 AI 크롤러들과 싸우는 중임
    혹시 내 차단 규칙이 Internet Archive까지 막았을까 걱정됨
    Facebook은 robots.txt를 무시하고 여러 IP로 요청을 분산시켜 crawl delay를 넘김
    그래서 nginx에서 Facebook 전용 규칙을 따로 두었음
    지금까지는 JA3 해시 차단이 가장 효과적이었음
    하지만 TCP 지문 인식을 위해 hugin-net을 nginx에 감싸는 래퍼가 있었으면 함
    Rust를 몰라서 LLM에게 부탁하기도 두려움
    다만 이 방식은 race condition 문제가 있음. 첫 연결에서는 JA4 해시가 없고, AI 크롤러들은 IP당 한 번만 요청하므로 두 번째 요청을 막을 기회가 없음

    • Internet Archive도 robots.txt를 따르지 않음
      그들은 공식 블로그 글에서 “웹 아카이빙의 미래는 robots.txt에 덜 의존할 것”이라 밝힘
      또 다른 단체인 Archiveteam도 robots.txt를 무시한다고 함
      요즘 대형 아카이빙 단체들은 사이트 운영자 입장을 거의 고려하지 않는 듯함
    • JA3 랜덤화나 위장 같은 회피 기법은 탐지를 쉽게 우회함
    • 화이트리스트 키로 서명된 요청만 통과시키는 봇 차단 우회 메커니즘이 가능할지 궁금함
      그렇게 하면 Internet Archive 크롤러만 허용할 수 있을 듯함
  • 이제는 AI 스크래퍼를 완전히 막을 수 없다고 인정한 사람들이 어떻게 생각하는지 궁금함
    인간 브라우저와 LLM 에이전트의 구분이 사라질 날이 머지않았음
    그들은 실제 GUI 세션을 열고 브라우저로 페이지를 탐색하며 OS 수준에서 스냅샷을 찍어 콘텐츠를 복원할 수 있음
    결국 공개 웹에서 접근을 막는다는 개념 자체가 구식이 될 것 같음
    그렇다면 개별 호스트의 부담을 줄이는 방법은 무엇일까?
    신뢰할 수 있는 중앙 아카이빙 기관이 생길까, 아니면 LLM의 ‘나쁜 행동’을 처벌하는 방식이 나올까?

    • 인터넷 법률에는 실질적 집행력이 거의 없음을 이미 배웠어야 함
    • 콘텐츠 해시를 제공하고, 실제 데이터는 IPFS나 BitTorrent 같은 곳에서 가져오게 하면 사이트 부하를 줄일 수 있음
      브라우저가 이를 지원하면 CDN의 효율성을 중앙화 없이 얻을 수 있음
    • 아예 공개 웹에 게시하지 않으면 스크래핑 걱정이 사라짐
      어쩌면 CDN이 데이터를 직접 판매하는 모델이 더 효율적일지도 모름
    • 지금은 수천 개의 AI 기업이 웹 전체를 긁고 있지만, AI 버블이 꺼지면 결국 몇몇만 남을 것임
      그때는 지속적인 스크래핑 수요가 줄어들 것임
    • 진짜 문제는 트래픽 부하와 대역폭 비용
      기본적인 엔지니어링 감각과 회계 개념이 잊혀진 듯함
  • 언론사들은 자신들의 콘텐츠가 AI 발전에 미친 영향을 과대평가
    그들이 존재하지 않았더라도 LLM 품질에는 큰 차이가 없었을 것임

    • Wikipedia, Reddit, 논문만으로는 한계가 있음
      결국 언론 기사 같은 다양한 텍스트가 필요함
    • 웹이 AI 생성물로 넘쳐날수록 인간이 쓴 텍스트의 가치가 높아짐
      AI 기업이 동의 없이 이를 사용하는 걸 막는 전략이 타당함
  • 우리는 지금 방화범을 벌주려다 도서관을 불태우는 꼴임
    방화범은 이미 떠났음

    • 하지만 실제로는 도서관 방문자의 90%가 방화범일지도 모름
  • 그래서 archive.is가 만들어졌음
    그 창립자를 추적해 처벌하려 하기보다, 유용한 프로젝트로서 지원해야 하지 않을까?

    • 동의함. archive.is가 사라지면 archive.org이 독점이 됨
      archive.org은 사이트 소유자의 삭제 요청을 받아들이므로, 오래된 도메인을 사면 과거 기록을 지울 수도 있음
    • 하지만 archive.is의 창립자는 과거 기자에게 DDoS 공격을 한 전력이 있음
      사용자를 공격에 끌어들였다는 점에서 찬양받을 인물은 아님
  • 예전에 스팸 방지 시스템을 만들던 사람으로서, 앞으로는 사이트 접속에도 ‘택시 면허증’ 같은 인증 체계가 생길 것 같음
    예를 들어 Internet Archive가 서명된 HTTPS 요청을 보내면, 사이트는 그것이 진짜임을 확인할 수 있음
    이는 열린 인터넷 정신에는 반하지만, 신뢰할 수 있는 크롤러를 구분하는 방법이 필요함

    • 나는 인간처럼 보이지 않는 크롤러에게 다음을 요구함
      • 역방향 DNS가 존재하고, 그 도메인에 행동 정책 페이지가 있을 것
      • IP 기반의 TXT 레코드로 누가, 언제, 얼마나 자주 접근하는지 명시할 것
        이런 정보를 기반으로 자동 차단 결정을 내림
        이미 Amazon 요청을 기본 차단하는 정책을 블로그에 기록했음
  • 뉴욕타임스는 끔찍하다고 생각함. 그래서 오히려 미래를 위해 반드시 보존되어야

    • 모든 언론의 오피니언 기사는 결국 선전물임
      각 매체는 자기 이념에 맞는 글만 실음
    • 왜 그렇게 나쁘다고 생각하는지 궁금함. 나는 읽지 않음
  • EFF는 AI에 대해 미온적임
    AI가 인터넷과 일자리를 망치고 있는데도 강경한 입장을 취하지 않음
    후원사 목록을 보면 기업 후원자들이 많아, 자유 단체로서의 신뢰성이 떨어짐
    OSI나 EFF 같은 단체는 이미 기업에 포섭되어 해롭기까지 함

  • Internet Archive에 분산형 주거 IP 크롤러 프로그램이 있다면 기꺼이 참여하고 싶음
    다만 조작 방지 메커니즘이 필요함

    • Internet Archive는 없지만, Archive Team Warrior가 있음
    • IA는 모든 걸 공개적으로 처리하며, 심지어 부당한 DMCA 요청도 존중함
    • TLS를 그들 쪽에서 종료하면 간단함. 결국 주거용 프록시로 동작하게 됨
  • 비료와 디젤을 함께 판매한다면 농업용 공급업체로 추정하는 게 합리적임
    하지만 농부가 아닌 사람에게 트럭 단위로 판매한다면 의심하는 것도 당연함