7P by neo 22일전 | favorite | 댓글 2개
  • Cloudflare는 웹사이트 소유자가 AI 모델 제공자에게 사이트 콘텐츠 스크래핑 접근을 판매할 수 있는 마켓플레이스를 내년에 출시할 계획을 발표함
  • 이 마켓플레이스는 Cloudflare CEO Matthew Prince의 더 큰 계획의 마지막 단계로, 퍼블리셔들이 AI 봇이 웹사이트를 스크래핑하는 방법과 시기를 더 잘 통제할 수 있도록 함
  • 그 첫 단계로 Cloudflare는 무료 observability 도구인 AI Audit을 출시함
    • 웹사이트 소유자는 AI 모델이 사이트를 얼마나 자주 스크래핑하는지에 대한 분석을 볼 수 있는 대시보드를 제공받음
    • AI Audit을 통해 웹사이트 소유자는 AI 봇을 차단하거나 특정 웹 스크래퍼를 허용할 수 있음
    • AI Audit 데모는 웹사이트 소유자가 각 스크래퍼가 어디서 오는지 확인할 수 있게 하며, OpenAI, Meta, Amazon 등의 AI 모델 제공자가 사이트를 얼마나 자주 방문하는지 볼 수 있는 선택적 창을 제공함
  • AI 산업의 문제 해결
    • AI 모델 제공자들이 수천 개의 작은 웹사이트를 스크래핑하여 LLM을 구동하는 정보로 사용함
    • 대부분의 웹사이트는 아무런 보상을 받지 못하고, 이는 많은 웹사이트의 비즈니스 모델을 깨뜨릴 수 있음
    • Cloudflare는 웹사이트 소유자가 AI 봇을 차단할 수 있는 버튼을 출시함
  • 고객 요구 사항 반영
    • Cloudflare의 고객들은 어떤 AI 모델이 사이트에 접근할 수 있는지 선택할 수 있는 도구를 요구함
    • Cloudflare의 새로운 도구는 일부 AI 크롤러를 차단하면서 다른 크롤러는 허용할 수 있게 함
  • 마켓플레이스의 목표
    • Cloudflare의 마켓플레이스는 작은 퍼블리셔들이 AI 모델 제공자와 거래를 할 수 있게 함
    • 웹사이트가 스크래핑 요금을 설정하거나 AI 연구소에 크레딧을 요청할 수 있음
  • AI 생태계에 미치는 영향
    • 현재 일부 AI 회사들이 콘텐츠에 대해 아무런 비용을 지불하지 않는 상황은 지속 가능하지 않음
    • Cloudflare의 CEO는 이 마켓플레이스가 AI 생태계에 궁극적으로 좋을 것이라고 생각함

GN⁺의 정리

  • Cloudflare는 웹사이트 소유자가 AI 모델 제공자에게 사이트 콘텐츠 스크래핑 접근을 판매할 수 있는 마켓플레이스를 출시할 계획을 발표함
  • AI Audit 도구를 통해 웹사이트 소유자는 AI 모델이 사이트를 얼마나 자주 스크래핑하는지 분석할 수 있음
  • 이 마켓플레이스는 작은 퍼블리셔들이 AI 모델 제공자와 거래를 할 수 있게 하여, 콘텐츠에 대한 보상을 받을 수 있도록 함
  • 이는 AI 생태계의 지속 가능성을 높이는 데 기여할 수 있음

취지는 좋군요

Hacker News 의견
  • Common Crawl은 OpenAI와 Antropic과 함께 "Providers" 목록에 포함됨

    • Common Crawl은 AI 훈련 외에도 다양한 용도로 사용됨
    • Wayback Machine의 주요 콘텐츠 소스임
    • Common Crawl 프로젝트의 목적은 여러 회사가 개별적으로 크롤러를 운영하는 대신, Common Crawl이 데이터를 수집하고 표준 형식으로 제공하는 것임
    • CloudFlare가 콘텐츠 접근을 제한하면 큰 영향을 미칠 수 있음
    • 대부분의 웹사이트가 보안 제품을 사용하여 접근을 제한하는 세상이 올 수 있음
  • OpenFoodFacts와 OpenStreetMap, Wikipedia는 DDoS 공격을 받음

    • 무료로 데이터를 다운로드할 수 있음에도 불구하고 봇이 모든 것을 스크랩함
    • 이로 인해 불필요한 트래픽이 발생하고 비용이 증가함
    • 이는 저작권 문제가 아니라 봇의 비효율성과 운영자의 무관심 때문임
    • 해결책이 필요함
  • 크롤링을 방지하는 것은 무의미한 작업일 수 있음

    • 이 기능은 이미 많은 데이터를 크롤링한 대형 플레이어를 더욱 강화할 수 있음
    • 잘못된 긍정과 과도한 캡차로 인해 사용자에게 영향을 미칠 수 있음
  • Cloudflare는 새로운 방식으로 남용으로부터 보호하는 서비스를 제공함

    • Cloudflare는 남용자와 협력하여 "마켓플레이스"를 형성함
    • Cloudflare의 서비스를 사용하지 않으면 남용이 계속될 것임
    • 이는 보호비를 요구하는 행위와 유사할 수 있음
  • 월드 와이드 웹의 미래에 대한 의문

    • 영원히 지속될 것 같았지만, 언젠가는 IRC처럼 사라질 수 있음
    • 황금기는 이미 지나갔고, "AI"는 끝의 시작일 수 있음
  • Cloudflare 블로그에서 더 많은 세부 정보를 확인할 수 있음

    • AI Audit의 데모는 웹사이트 소유자가 AI 모델이 사이트를 어떻게 스크랩하는지 볼 수 있게 함
    • OpenAI, Meta, Amazon 등의 스크래퍼가 사이트를 방문한 횟수를 볼 수 있음
  • AI Audit를 사용한 Bingeclock의 예시

    • Cloudflare의 발표 이후 48시간 동안의 흥미로운 변화
    • 결제 프로그램은 흥미롭지만, 트래픽 감소로 인해 웹사이트가 비효율적으로 될 수 있음
    • AI 스크래퍼는 최소한의 결제만 할 가능성이 높음
  • 다음 단계: 생성형 AI를 사용하여 콘텐츠를 생성하고, Cloudflare가 이를 스캔할 때 결제를 받음

  • 동일한 사이트를 반복적으로 스크랩하는 것은 큰 낭비임

    • Cloudflare가 변경 사항과 업데이트를 관리할 수 있다면 많은 자원을 절약할 수 있음
    • 사이트가 Cloudflare에 변경 사항을 직접 알리고, Cloudflare가 AI에 이를 전달함
    • AI가 변경 사항을 구매하고, Cloudflare가 사이트에 결제하고 마진을 유지함