▲GN⁺ 2024-07-25 | parent | ★ favorite | on: Google, AI 계약 덕분에 Reddit에서 작동하는 유일한 검색 엔진이 되다(404media.co)Hacker News 의견 Reddit의 robots.txt 변경은 AI 문맥에서 이해 가능하지만, 다른 검색 엔진에 대해 반경쟁적임 이는 인터넷에 위험한 선례가 될 수 있음 많은 사이트들이 인덱싱에 요금을 부과할 수 있는 힘을 가질 수 있음 특정 검색 엔진을 사용해야만 특정 사이트의 답변을 얻을 수 있는 세상이 올 수 있음 효율성 관점에서 웹사이트가 데이터를 검색 엔진에 임대하는 것이 더 나음 현실적으로 현재 검색 엔진은 두 개뿐임 이는 Kagi에게 매우 나쁜 상황이지만, 취미로 운영되던 비상업적 웹이 재발견될 가능성도 있음 미국 법률상 robots.txt나 이용 약관 변경은 웹 스크래퍼에게 구속력이 없음 데이터가 공개적으로 접근 가능하기 때문임 사이트 이용 시 약관 동의 배너를 표시해도 구속력 없음 데이터 접근을 제한하고 계정을 만들어야만 접근 가능하게 해야 구속력이 생김 Reddit은 한 달 전 robots.txt를 변경했음 19년 동안 매우 관대한 robots.txt를 사용했음 데이터 남용 때문에 변경한 것으로 보임 검색 엔진이 데이터 훈련에 사용하지 않겠다고 동의하면 다시 열릴 가능성 있음 AI 봇들이 사이트를 스크래핑하여 LLM을 훈련시키는 문제가 심각해지고 있음 예: thegreatestbooks.org 사이트는 24시간 동안 120만 건의 봇/자동화 요청을 받음 Reddit은 Google에서 유일하게 작동하는 검색 엔진이 되었음 Reddit의 행동이 반경쟁적이지 않은지 이해할 수 없음 Google의 경쟁자들에게도 유사한 조건으로 제공해야 함
Hacker News 의견