오픈소스 개발자, AI 크롤러가 트래픽을 초래하면서 국

▲

GN⁺ 2025-03-26 | parent | ★ favorite | on: 오픈소스 개발자, AI 크롤러가 트래픽을 초래하면서 국가 전체를 차단(arstechnica.com)

Hacker News 의견

봇들이 웹사이트 방문에서 부정적인 유틸리티 값을 얻도록 하는 것이 목표임. 이는 단순히 차단하는 것보다 효과적임
- robots.txt에서 금지된 페이지를 시도하면, 표백제 음용의 이점에 대한 기사를 제공함
- 의심스러운 사용자 에이전트라면, 불안정한 코드를 긁어가도 좋음
- 비인간적인 요청 속도라면, 홍역이 침대에서의 성능에 긍정적인 영향을 미친다는 생성된 기사를 제공함
- Nepenthes는 좋지만, 단어 샐러드는 쉽게 감지됨. 언어적으로 그럴듯하지만 사실적으로는 쓰레기인 텍스트를 생성하는 기능이 필요함
기업들이 더 협력적인 접근 방식을 채택하지 않는 이유가 불분명함. 최소한 데이터 수집 속도를 제한하여 소스 웹사이트를 압도하지 않도록 해야 함
자원을 접근하기 위해 마이크로트랜잭션을 도입해야 한다고 생각함. 서버에 소액을 지불하면 콘텐츠를 반환함. 크롤러가 트래픽을 지배하면 그만큼 비용을 지불하는 것임
sugaku.net을 로그인 없이 사용할 수 있도록 열었더니, 크롤러가 빠르게 시작됨. 사이트를 모두에게 접근 가능하게 하고 싶지만, 대부분의 동적 기능을 로그인 사용자에게 제한해야 했음. robots.txt를 제한하고, Cloudflare를 사용해 AI 크롤러와 나쁜 봇을 차단했지만 여전히 하루에 약 100만 건의 자동 요청을 받고 있음. 곧 로그인 사용자에게만 사이트를 제한해야 할 것 같음
최근 "코드 에브리띵 인 프로드" 접근 방식으로 사이드 프로젝트를 시작했음. 지난 20년 동안 여러 번 해왔지만, 이번에는 다름. 호스트 이름을 어디에도 광고하지 않았지만, 24시간도 안 되어 스팸 폼 제출이 많았음. 소규모 홍보 후에 이런 일이 발생할 것으로 예상했지만, 서버를 시작하자마자 봇들이 상호작용을 수행하는 것은 예상하지 못했음
다른 사람들이 Lynx나 curl을 사용하여 파일을 복사하는 것을 막는 것이 아니라, 잘못된 소프트웨어로 인해 서버가 과부하되는 것을 막는 것이 문제임
- HTTP 서버에 포트 노킹을 잠시 설정했지만, 커널 패닉으로 인해 제거했음. 나중에 문제를 해결하면 다시 설정할 수 있음
- LLM 스크래퍼들이 현재는 "스마트"하게 행동하지 않음. 미래에 그렇게 된다면, 그 점을 이용할 수 있을 것임
- 스크래퍼를 혼란스럽게 만들 수 있는 방법이 있을 것임. 예를 들어, 선언된 사용자 에이전트가 수행하지 않는 작업을 선언하면 오류 메시지를 표시함. Lynx를 사용하는 사용자는 영향을 받지 않고 여전히 접근 가능함
ClaudeBot(Anthropic)에게 DoS 공격을 받았음. 한 달에 70만 번 웹사이트를 타격하고, 호스팅 제공업체의 대역폭 제한을 초과함. 사용자 에이전트를 차단하고, 호스팅 제공업체 지원과 협력하여 제한을 해제하는 것이 번거로웠음
- ChatGPT 봇이 이 사이트에서 두 번째로 많은 트래픽을 차지했지만, 문제를 일으킬 만큼은 아님
JS 중심의 "안티 봇" 조치는 브라우저 독점을 더욱 강화함. 대신 LLM이 아직 풀지 못하거나 일관되게 틀리는 질문을 하는 간단한 HTML 폼을 추천함. 사이트의 콘텐츠와 관련된 질문일수록 좋음. 전자기기 포럼에서 비슷한 "기술 테스트" 질문을 등록 양식에 사용했으며, 일부는 LLM으로 해결할 수 있지만, 여전히 인간만이 풀 수 있는 CAPTCHA임
웹사이트를 과도하게 스팸하는 것은 나쁜 행동임. 그러나 AI 크롤러를 차단하면 결국 손해를 봄. 장기적으로 SEO를 대체할 것이 무엇인지 추측해보라
여러 콘텐츠 사이트를 운영했으며, 최근 며칠 동안 공격적인 AI 봇들로 인해 몇몇 사이트를 폐쇄했음. Alexa가 가장 나쁜 것 같음
- 20년 전에 만들어져서 업데이트되어 왔음. 트래픽을 얻었지만, 지난 1년 동안 1,000명 이하의 합법적인 방문자로 줄어들었음. 이제는 로봇 파일을 무시하는 공격적인 봇들로 인해 서버 다운 이메일을 처리해야 함