Nepenthes - AI 웹 크롤러를 잡는 함정

▲

GN⁺ 2025-01-17 | parent | ★ favorite | on: Nepenthes - AI 웹 크롤러를 잡는 함정(zadzmo.org)

Hacker News 의견

ChatGPT 크롤러의 반사형 DDOS 취약점을 테스트하는 방법에 대한 의견이 있음. 이 취약점은 단일 HTTP 요청이 5000개의 HTTP 요청을 유발할 수 있음
- OpenAI와 Microsoft는 이 취약점을 무시했으며, 보고 과정이 매우 어려웠음
- 법적 이유로 이 취약점을 악용하지 말 것을 권장함
과거 봇 모텔을 운영했던 경험을 공유하며, 크롤러들이 며칠 동안 갇혀 있었던 사례를 언급함
- 보안은 종종 사후 고려 사항이며, 크롤러와의 싸움은 끝없는 경쟁임
비영리 웹사이트가 Amazon 봇의 공격적인 크롤링으로 인해 일시적으로 닫힌 경험을 공유함
- Siteground가 사이트를 복구해 주었고, 이후 robots.txt에 Amazon 봇을 추가함
- 현재 상황에 대한 불만을 표하며, 타르핏이나 법률이 해결책이 될 수 있는지에 대한 의문을 제기함
타르핏이 크롤링을 늦출 수 있지만, 많은 사이트가 이를 사용하지 않는 한 큰 효과는 없을 것이라는 의견이 있음
- 잘못된 봇을 식별하는 것이 어려워 검색 결과에서 제외될 위험이 있음
무작위 마르코프 체인 기반 텍스트 생성기가 LLM 훈련 크롤러에 큰 문제가 되지 않을 것이라는 의견이 있음
- 무작위 오염보다는 반복적인 비상식적 텍스트를 사용하는 것이 더 효과적일 수 있음
현재 502 Bad Gateway 오류가 발생하고 있으며, AI 웹 크롤러로 분류되었는지 아니면 과부하인지 알 수 없다는 의견이 있음
이 개념이 대중화되지 않는 한 필터링하기 쉽다는 의견이 있음
- 대기업들이 이러한 소프트웨어를 방지하기 위해 팀을 구성할 수 있음
이미 인터넷에는 "무한" 웹사이트가 존재하며, 크롤러는 도메인별로 크롤링할 페이지 수를 정해놓음
- 인기 있는 사이트는 많은 크롤링을 받지만, 알려지지 않은 사이트는 적은 크롤링을 받음
간단한 접근 방식으로는 각 잘못된 HTTP 요청에 대해 100개의 잘못된 HTTP 요청을 보내는 방법을 고려 중임
이 소프트웨어가 적용된 사이트는 모든 검색 결과에서 사라질 가능성이 높다는 의견이 있음
- 이는 버그일 수도 있고, 기능일 수도 있음