사이트 운영자로서 공격적인 AI 크롤러들과 싸우는 중임
혹시 내 차단 규칙이 Internet Archive까지 막았을까 걱정됨
Facebook은 robots.txt를 무시하고 여러 IP로 요청을 분산시켜 crawl delay를 넘김
그래서 nginx에서 Facebook 전용 규칙을 따로 두었음
지금까지는 JA3 해시 차단이 가장 효과적이었음
하지만 TCP 지문 인식을 위해 hugin-net을 nginx에 감싸는 래퍼가 있었으면 함
Rust를 몰라서 LLM에게 부탁하기도 두려움
다만 이 방식은 race condition 문제가 있음. 첫 연결에서는 JA4 해시가 없고, AI 크롤러들은 IP당 한 번만 요청하므로 두 번째 요청을 막을 기회가 없음
Internet Archive도 robots.txt를 따르지 않음
그들은 공식 블로그 글에서 “웹 아카이빙의 미래는 robots.txt에 덜 의존할 것”이라 밝힘
또 다른 단체인 Archiveteam도 robots.txt를 무시한다고 함
요즘 대형 아카이빙 단체들은 사이트 운영자 입장을 거의 고려하지 않는 듯함
JA3 랜덤화나 위장 같은 회피 기법은 탐지를 쉽게 우회함
화이트리스트 키로 서명된 요청만 통과시키는 봇 차단 우회 메커니즘이 가능할지 궁금함
그렇게 하면 Internet Archive 크롤러만 허용할 수 있을 듯함
이제는 AI 스크래퍼를 완전히 막을 수 없다고 인정한 사람들이 어떻게 생각하는지 궁금함
인간 브라우저와 LLM 에이전트의 구분이 사라질 날이 머지않았음
그들은 실제 GUI 세션을 열고 브라우저로 페이지를 탐색하며 OS 수준에서 스냅샷을 찍어 콘텐츠를 복원할 수 있음
결국 공개 웹에서 접근을 막는다는 개념 자체가 구식이 될 것 같음
그렇다면 개별 호스트의 부담을 줄이는 방법은 무엇일까?
신뢰할 수 있는 중앙 아카이빙 기관이 생길까, 아니면 LLM의 ‘나쁜 행동’을 처벌하는 방식이 나올까?
인터넷 법률에는 실질적 집행력이 거의 없음을 이미 배웠어야 함
콘텐츠 해시를 제공하고, 실제 데이터는 IPFS나 BitTorrent 같은 곳에서 가져오게 하면 사이트 부하를 줄일 수 있음
브라우저가 이를 지원하면 CDN의 효율성을 중앙화 없이 얻을 수 있음
아예 공개 웹에 게시하지 않으면 스크래핑 걱정이 사라짐
어쩌면 CDN이 데이터를 직접 판매하는 모델이 더 효율적일지도 모름
지금은 수천 개의 AI 기업이 웹 전체를 긁고 있지만, AI 버블이 꺼지면 결국 몇몇만 남을 것임
그때는 지속적인 스크래핑 수요가 줄어들 것임
진짜 문제는 트래픽 부하와 대역폭 비용임
기본적인 엔지니어링 감각과 회계 개념이 잊혀진 듯함
언론사들은 자신들의 콘텐츠가 AI 발전에 미친 영향을 과대평가함
그들이 존재하지 않았더라도 LLM 품질에는 큰 차이가 없었을 것임
Wikipedia, Reddit, 논문만으로는 한계가 있음
결국 언론 기사 같은 다양한 텍스트가 필요함
웹이 AI 생성물로 넘쳐날수록 인간이 쓴 텍스트의 가치가 높아짐
AI 기업이 동의 없이 이를 사용하는 걸 막는 전략이 타당함
우리는 지금 방화범을 벌주려다 도서관을 불태우는 꼴임
방화범은 이미 떠났음
하지만 실제로는 도서관 방문자의 90%가 방화범일지도 모름
그래서 archive.is가 만들어졌음
그 창립자를 추적해 처벌하려 하기보다, 유용한 프로젝트로서 지원해야 하지 않을까?
동의함. archive.is가 사라지면 archive.org이 독점이 됨
archive.org은 사이트 소유자의 삭제 요청을 받아들이므로, 오래된 도메인을 사면 과거 기록을 지울 수도 있음
하지만 archive.is의 창립자는 과거 기자에게 DDoS 공격을 한 전력이 있음
사용자를 공격에 끌어들였다는 점에서 찬양받을 인물은 아님
예전에 스팸 방지 시스템을 만들던 사람으로서, 앞으로는 사이트 접속에도 ‘택시 면허증’ 같은 인증 체계가 생길 것 같음
예를 들어 Internet Archive가 서명된 HTTPS 요청을 보내면, 사이트는 그것이 진짜임을 확인할 수 있음
이는 열린 인터넷 정신에는 반하지만, 신뢰할 수 있는 크롤러를 구분하는 방법이 필요함
나는 인간처럼 보이지 않는 크롤러에게 다음을 요구함
역방향 DNS가 존재하고, 그 도메인에 행동 정책 페이지가 있을 것
IP 기반의 TXT 레코드로 누가, 언제, 얼마나 자주 접근하는지 명시할 것
이런 정보를 기반으로 자동 차단 결정을 내림
이미 Amazon 요청을 기본 차단하는 정책을 블로그에 기록했음
뉴욕타임스는 끔찍하다고 생각함. 그래서 오히려 미래를 위해 반드시 보존되어야 함
모든 언론의 오피니언 기사는 결국 선전물임
각 매체는 자기 이념에 맞는 글만 실음
왜 그렇게 나쁘다고 생각하는지 궁금함. 나는 읽지 않음
EFF는 AI에 대해 미온적임
AI가 인터넷과 일자리를 망치고 있는데도 강경한 입장을 취하지 않음 후원사 목록을 보면 기업 후원자들이 많아, 자유 단체로서의 신뢰성이 떨어짐
OSI나 EFF 같은 단체는 이미 기업에 포섭되어 해롭기까지 함
Internet Archive에 분산형 주거 IP 크롤러 프로그램이 있다면 기꺼이 참여하고 싶음
다만 조작 방지 메커니즘이 필요함
Hacker News 의견들
사이트 운영자로서 공격적인 AI 크롤러들과 싸우는 중임
혹시 내 차단 규칙이 Internet Archive까지 막았을까 걱정됨
Facebook은 robots.txt를 무시하고 여러 IP로 요청을 분산시켜 crawl delay를 넘김
그래서 nginx에서 Facebook 전용 규칙을 따로 두었음
지금까지는 JA3 해시 차단이 가장 효과적이었음
하지만 TCP 지문 인식을 위해 hugin-net을 nginx에 감싸는 래퍼가 있었으면 함
Rust를 몰라서 LLM에게 부탁하기도 두려움
다만 이 방식은 race condition 문제가 있음. 첫 연결에서는 JA4 해시가 없고, AI 크롤러들은 IP당 한 번만 요청하므로 두 번째 요청을 막을 기회가 없음
그들은 공식 블로그 글에서 “웹 아카이빙의 미래는 robots.txt에 덜 의존할 것”이라 밝힘
또 다른 단체인 Archiveteam도 robots.txt를 무시한다고 함
요즘 대형 아카이빙 단체들은 사이트 운영자 입장을 거의 고려하지 않는 듯함
그렇게 하면 Internet Archive 크롤러만 허용할 수 있을 듯함
이제는 AI 스크래퍼를 완전히 막을 수 없다고 인정한 사람들이 어떻게 생각하는지 궁금함
인간 브라우저와 LLM 에이전트의 구분이 사라질 날이 머지않았음
그들은 실제 GUI 세션을 열고 브라우저로 페이지를 탐색하며 OS 수준에서 스냅샷을 찍어 콘텐츠를 복원할 수 있음
결국 공개 웹에서 접근을 막는다는 개념 자체가 구식이 될 것 같음
그렇다면 개별 호스트의 부담을 줄이는 방법은 무엇일까?
신뢰할 수 있는 중앙 아카이빙 기관이 생길까, 아니면 LLM의 ‘나쁜 행동’을 처벌하는 방식이 나올까?
브라우저가 이를 지원하면 CDN의 효율성을 중앙화 없이 얻을 수 있음
어쩌면 CDN이 데이터를 직접 판매하는 모델이 더 효율적일지도 모름
그때는 지속적인 스크래핑 수요가 줄어들 것임
기본적인 엔지니어링 감각과 회계 개념이 잊혀진 듯함
언론사들은 자신들의 콘텐츠가 AI 발전에 미친 영향을 과대평가함
그들이 존재하지 않았더라도 LLM 품질에는 큰 차이가 없었을 것임
결국 언론 기사 같은 다양한 텍스트가 필요함
AI 기업이 동의 없이 이를 사용하는 걸 막는 전략이 타당함
우리는 지금 방화범을 벌주려다 도서관을 불태우는 꼴임
방화범은 이미 떠났음
그래서 archive.is가 만들어졌음
그 창립자를 추적해 처벌하려 하기보다, 유용한 프로젝트로서 지원해야 하지 않을까?
archive.org은 사이트 소유자의 삭제 요청을 받아들이므로, 오래된 도메인을 사면 과거 기록을 지울 수도 있음
사용자를 공격에 끌어들였다는 점에서 찬양받을 인물은 아님
예전에 스팸 방지 시스템을 만들던 사람으로서, 앞으로는 사이트 접속에도 ‘택시 면허증’ 같은 인증 체계가 생길 것 같음
예를 들어 Internet Archive가 서명된 HTTPS 요청을 보내면, 사이트는 그것이 진짜임을 확인할 수 있음
이는 열린 인터넷 정신에는 반하지만, 신뢰할 수 있는 크롤러를 구분하는 방법이 필요함
이런 정보를 기반으로 자동 차단 결정을 내림
이미 Amazon 요청을 기본 차단하는 정책을 블로그에 기록했음
뉴욕타임스는 끔찍하다고 생각함. 그래서 오히려 미래를 위해 반드시 보존되어야 함
각 매체는 자기 이념에 맞는 글만 실음
EFF는 AI에 대해 미온적임
AI가 인터넷과 일자리를 망치고 있는데도 강경한 입장을 취하지 않음
후원사 목록을 보면 기업 후원자들이 많아, 자유 단체로서의 신뢰성이 떨어짐
OSI나 EFF 같은 단체는 이미 기업에 포섭되어 해롭기까지 함
Internet Archive에 분산형 주거 IP 크롤러 프로그램이 있다면 기꺼이 참여하고 싶음
다만 조작 방지 메커니즘이 필요함
비료와 디젤을 함께 판매한다면 농업용 공급업체로 추정하는 게 합리적임
하지만 농부가 아닌 사람에게 트럭 단위로 판매한다면 의심하는 것도 당연함