Google, AI 계약 덕분에 Reddit에서 작동하

▲

GN⁺ 2024-07-25 | parent | ★ favorite | on: Google, AI 계약 덕분에 Reddit에서 작동하는 유일한 검색 엔진이 되다(404media.co)

Hacker News 의견

Reddit의 robots.txt 변경은 AI 문맥에서 이해 가능하지만, 다른 검색 엔진에 대해 반경쟁적임
이는 인터넷에 위험한 선례가 될 수 있음
많은 사이트들이 인덱싱에 요금을 부과할 수 있는 힘을 가질 수 있음
특정 검색 엔진을 사용해야만 특정 사이트의 답변을 얻을 수 있는 세상이 올 수 있음
효율성 관점에서 웹사이트가 데이터를 검색 엔진에 임대하는 것이 더 나음
현실적으로 현재 검색 엔진은 두 개뿐임
이는 Kagi에게 매우 나쁜 상황이지만, 취미로 운영되던 비상업적 웹이 재발견될 가능성도 있음
미국 법률상 robots.txt나 이용 약관 변경은 웹 스크래퍼에게 구속력이 없음
- 데이터가 공개적으로 접근 가능하기 때문임
- 사이트 이용 시 약관 동의 배너를 표시해도 구속력 없음
- 데이터 접근을 제한하고 계정을 만들어야만 접근 가능하게 해야 구속력이 생김
Reddit은 한 달 전 robots.txt를 변경했음
- 19년 동안 매우 관대한 robots.txt를 사용했음
- 데이터 남용 때문에 변경한 것으로 보임
- 검색 엔진이 데이터 훈련에 사용하지 않겠다고 동의하면 다시 열릴 가능성 있음
AI 봇들이 사이트를 스크래핑하여 LLM을 훈련시키는 문제가 심각해지고 있음
- 예: thegreatestbooks.org 사이트는 24시간 동안 120만 건의 봇/자동화 요청을 받음
Reddit은 Google에서 유일하게 작동하는 검색 엔진이 되었음
Reddit의 행동이 반경쟁적이지 않은지 이해할 수 없음
- Google의 경쟁자들에게도 유사한 조건으로 제공해야 함