▲GN⁺ 2025-01-14 | parent | ★ favorite | on: OpenAI의 봇이 작은 회사 웹사이트를 'DDoS 공격'처럼 마비시켜(techcrunch.com)Hacker News 의견 AI 회사들이 포럼에서 많은 트래픽을 유발하고 있음 Read the Docs에서 AI 봇들이 10TB 이상의 트래픽을 발생시켰다는 사례가 있음 OpenAI가 600개의 IP를 사용하여 데이터를 스크래핑했다는 주장이 있음 Cloudflare의 리버스 프록시 IP만 기록되어 실제 클라이언트 IP는 알 수 없음 로그에 타임스탬프가 없고 요청 속도에 대한 언급이 없어 DDOS 공격이라는 주장이 불공정하다는 의견이 있음 웹 개발자로서 AI 회사들의 비효율적인 스크래퍼에 불만을 가짐 사이트를 과도하게 로드하지 말라는 기본 규칙을 따를 것을 권장함 AI 회사들의 스크래퍼가 비효율적이고 불쾌하다고 느끼고 있음 기사에서 "robots.txt"를 잘못 표기한 점을 지적함 타임스탬프가 없는 로그 파일을 증거로 사용하는 것은 의심스럽다고 봄 OpenAI가 완전히 무죄는 아니지만, 기사의 품질이 낮다고 평가함 웹의 역사가 반복된다는 의견이 있음 과거에는 API를 통해 정보를 얻을 수 있었으나, 현재는 대부분 차단되고 있음 AI가 이러한 자동화된 상호작용을 다시 가능하게 할 수 있을 것이라고 기대함 개인 웹크롤러에 대한 흥미가 있었으나, 현재는 불공정한 Google 경제에 실망함 LLMs가 많은 유틸리티를 제공할 수 있지만, 창의성을 훔친다는 두려움이 문을 닫게 할 것이라고 우려함 최근 Amazon에서 책을 출판한 사람들이 AI에 의해 생성된 사기 복제품과 경쟁하고 있음 BBC에서 이와 관련된 경험을 인터뷰한 사례가 있음 사이트가 robots.txt를 제대로 사용하지 않으면 AI가 마음껏 스크래핑할 수 있다고 경고함 robots.txt를 확인할 것을 권장함 사이트는 HTTP 오류 429를 사용하여 봇의 속도를 조절할 수 있음 봇이 서브넷에서 오는 경우, 서브넷에 적용하고 개별 IP에 적용하지 말 것을 제안함
Hacker News 의견
AI 회사들이 포럼에서 많은 트래픽을 유발하고 있음
웹 개발자로서 AI 회사들의 비효율적인 스크래퍼에 불만을 가짐
기사에서 "robots.txt"를 잘못 표기한 점을 지적함
웹의 역사가 반복된다는 의견이 있음
개인 웹크롤러에 대한 흥미가 있었으나, 현재는 불공정한 Google 경제에 실망함
최근 Amazon에서 책을 출판한 사람들이 AI에 의해 생성된 사기 복제품과 경쟁하고 있음
사이트가 robots.txt를 제대로 사용하지 않으면 AI가 마음껏 스크래핑할 수 있다고 경고함
사이트는 HTTP 오류 429를 사용하여 봇의 속도를 조절할 수 있음