Hacker News 의견
  • AI 회사들이 포럼에서 많은 트래픽을 유발하고 있음

    • Read the Docs에서 AI 봇들이 10TB 이상의 트래픽을 발생시켰다는 사례가 있음
    • OpenAI가 600개의 IP를 사용하여 데이터를 스크래핑했다는 주장이 있음
    • Cloudflare의 리버스 프록시 IP만 기록되어 실제 클라이언트 IP는 알 수 없음
    • 로그에 타임스탬프가 없고 요청 속도에 대한 언급이 없어 DDOS 공격이라는 주장이 불공정하다는 의견이 있음
  • 웹 개발자로서 AI 회사들의 비효율적인 스크래퍼에 불만을 가짐

    • 사이트를 과도하게 로드하지 말라는 기본 규칙을 따를 것을 권장함
    • AI 회사들의 스크래퍼가 비효율적이고 불쾌하다고 느끼고 있음
  • 기사에서 "robots.txt"를 잘못 표기한 점을 지적함

    • 타임스탬프가 없는 로그 파일을 증거로 사용하는 것은 의심스럽다고 봄
    • OpenAI가 완전히 무죄는 아니지만, 기사의 품질이 낮다고 평가함
  • 웹의 역사가 반복된다는 의견이 있음

    • 과거에는 API를 통해 정보를 얻을 수 있었으나, 현재는 대부분 차단되고 있음
    • AI가 이러한 자동화된 상호작용을 다시 가능하게 할 수 있을 것이라고 기대함
  • 개인 웹크롤러에 대한 흥미가 있었으나, 현재는 불공정한 Google 경제에 실망함

    • LLMs가 많은 유틸리티를 제공할 수 있지만, 창의성을 훔친다는 두려움이 문을 닫게 할 것이라고 우려함
  • 최근 Amazon에서 책을 출판한 사람들이 AI에 의해 생성된 사기 복제품과 경쟁하고 있음

    • BBC에서 이와 관련된 경험을 인터뷰한 사례가 있음
  • 사이트가 robots.txt를 제대로 사용하지 않으면 AI가 마음껏 스크래핑할 수 있다고 경고함

    • robots.txt를 확인할 것을 권장함
  • 사이트는 HTTP 오류 429를 사용하여 봇의 속도를 조절할 수 있음

    • 봇이 서브넷에서 오는 경우, 서브넷에 적용하고 개별 IP에 적용하지 말 것을 제안함