Hacker News 의견
  • Reddit의 robots.txt 변경은 AI 문맥에서 이해 가능하지만, 다른 검색 엔진에 대해 반경쟁적임
  • 이는 인터넷에 위험한 선례가 될 수 있음
  • 많은 사이트들이 인덱싱에 요금을 부과할 수 있는 힘을 가질 수 있음
  • 특정 검색 엔진을 사용해야만 특정 사이트의 답변을 얻을 수 있는 세상이 올 수 있음
  • 효율성 관점에서 웹사이트가 데이터를 검색 엔진에 임대하는 것이 더 나음
  • 현실적으로 현재 검색 엔진은 두 개뿐임
  • 이는 Kagi에게 매우 나쁜 상황이지만, 취미로 운영되던 비상업적 웹이 재발견될 가능성도 있음
  • 미국 법률상 robots.txt나 이용 약관 변경은 웹 스크래퍼에게 구속력이 없음
    • 데이터가 공개적으로 접근 가능하기 때문임
    • 사이트 이용 시 약관 동의 배너를 표시해도 구속력 없음
    • 데이터 접근을 제한하고 계정을 만들어야만 접근 가능하게 해야 구속력이 생김
  • Reddit은 한 달 전 robots.txt를 변경했음
    • 19년 동안 매우 관대한 robots.txt를 사용했음
    • 데이터 남용 때문에 변경한 것으로 보임
    • 검색 엔진이 데이터 훈련에 사용하지 않겠다고 동의하면 다시 열릴 가능성 있음
  • AI 봇들이 사이트를 스크래핑하여 LLM을 훈련시키는 문제가 심각해지고 있음
    • 예: thegreatestbooks.org 사이트는 24시간 동안 120만 건의 봇/자동화 요청을 받음
  • Reddit은 Google에서 유일하게 작동하는 검색 엔진이 되었음
  • Reddit의 행동이 반경쟁적이지 않은지 이해할 수 없음
    • Google의 경쟁자들에게도 유사한 조건으로 제공해야 함