2P by GN⁺ 8시간전 | ★ favorite | 댓글 1개
  • Perplexity크롤링 금지 지침을 우회하기 위해 신원을 숨긴 웹 크롤러를 사용함
  • robots.txt 파일 무시 및 IP, User Agent 지속적 변경같은 행위가 포착됨
  • 신규 도메인 실험에서 금지 설정에도 불구하고 Perplexity가 사이트 콘텐츠에 접근함이 확인됨
  • Cloudflare는 이러한 행위를 방지하기 위해 Perplexity를 공식 인증 봇에서 제외하고 관리 규칙을 수정함
  • OpenAI와 같은 선의의 봇 운영자와 대조적으로, Perplexity의 은폐형 행동이 문제로 지적됨

Perplexity의 은밀한 크롤러 사용 행위 개요

  • Perplexity는 AI 기반 답변 엔진으로, 공식적으로 신고된 유저 에이전트로 처음 웹사이트를 크롤링함
  • 그러나 네트워크 차단에 직면할 경우, 신원을 감추기 위해 User Agent를 변경하고, 다양한 ASN(자율 시스템 번호) 을 통해 접근을 시도함
  • 이 과정에서 robots.txt 파일을 무시하거나 아예 요청하지 않고 접근하는 시도들이 다수 발견됨

웹사이트와 크롤러 간 신뢰 원칙 및 문제 행태

  • 지난 수십 년간의 인터넷은 신뢰를 바탕으로 발전했고, 크롤러 역시 투명성과 목적성, 그리고 명확한 행동 기준을 갖추는 것이 원칙임
  • 크롤러는 웹사이트 소유자의 지침과 우선순의를 존중해야 하며, Perplexity의 이번 관찰된 행동은 이러한 원칙에 위배되는 사항임
  • 이로 인해 Cloudflare는 Perplexity를 공식 인증 봇 목록에서 제외하고, 스텔스 크롤러 탐지 및 차단을 위한 추가적인 관리 규칙을 적용함

실험 및 탐지 사례

  • Cloudflare는 신규 도메인을 만들어 Perplexity의 크롤링 행태를 실험함
    • robots.txt로 모든 자동 접근을 금지하고, WAF 규칙을 추가 설정했음
    • Perplexity의 공식 User Agent 및 IP를 막았음에도, 여전히 신분을 숨긴 채 사이트 콘텐츠를 수집한 사실이 확인됨
  • Perplexity는 공식 및 스텔스 User Agent 모두에서 콘텐츠 접근을 시도하며, 후자는 실제 브라우저(Chrome)로 가장함
구분 User Agent 예시 일일 요청량
공식 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) 2,000만~2,500만
은밀 Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 300만~600만
  • 공식 IP 범위에 포함되지 않은 여러 IP와 ASN을 사용하고, IP를 지속적으로 교체하며 차단 정책을 우회하려 함
  • 이로 인해 수만 개의 도메인과 수백만 건의 요청에서 이러한 활동이 식별되었으며, Cloudflare는 머신러닝과 네트워크 신호를 활용해 해당 크롤러를 지문화함

스텔스 크롤러 우회 사례 및 한계

  • 스텔스 크롤러 차단 시 Perplexity는 타 웹사이트 등 외부 자료를 활용해 답변을 제공하려 함
  • 그러나 이 경우 콘텐츠 상세도가 현저히 떨어지는 현상도 확인됨

선의의 봇 운영자 기준과 OpenAI의 모범 사례

  • 잘 운영되는 봇은 투명성, 신원 명확화, 활동 목적 공개, 개별 활동 별 독립된 봇 사용, 웹마스터 규칙(robots.txt 등) 준수 등의 원칙을 지녀야 함
  • OpenAI는 공식 IP와 User Agent, 크롤러 활동 목적을 투명하게 제공하고, robots.txt를 엄격히 준수함
  • 실제 실험에서도 ChatGPT 크롤러는 disallow 설정 또는 네트워크 차단을 발견하면 추가 크롤링 시도를 중단함
  • Web Bot Auth 등 표준화된 인증 방식도 적극적으로 도입함

보호 방법 및 대응

  • Perplexity의 신고되지 않은 User Agent에서 발생된 모든 크롤링은 Cloudflare 봇 관리 시스템에서 탐지되어 차단됨
  • Cloudflare의 기존 봇 차단 규칙 또는 챌린지 규칙 활성 고객은 이미 보호 대상임
  • 스텔스 크롤러 차단용 관리자 규칙이 전체 고객(무료 고객 포함)에게 제공됨
  • Content Independence Day 발표 후 250만 개가 넘는 웹사이트가 AI 크롤링 금지 정책을 적용함
  • 봇 운영자의 계속 진화하는 우회 시도에 맞춰 Cloudflare도 대응 체계와 기술을 지속적으로 발전 중임

정책적 노력 및 향후 전망

  • Cloudflare는 전 세계 기술 및 정책 전문가, IETF 등과 함께 robots.txt 확장 표준화 논의에 적극 참여 중임
  • 신뢰받는 크롤러 규칙을 정립하고, 급변하는 AI 및 크롤러 환경에서 투명성과 준법성을 강조하는 방향으로 나아감
Hacker News 의견
  • 이 문제를 해결하는 게 정말 어렵다고 생각함

    1. 내가 사람으로서 웹사이트에 요청하면, 당연히 콘텐츠를 볼 자격이 있다고 모두가 동의함
    2. 내가 내 컴퓨터의 소프트웨어, 예를 들면 광고 차단기를 설치해서 콘텐츠가 나오기 전에 바꾸게 하는 건 내 선택임, 그리고 웹사이트가 이걸 알지 못하게 하는 것이 맞다고 생각함, 대부분 사용자도 동의하지만 일부 사이트는 사용자에게 설치된 소프트웨어를 바꾸라고 귀찮게 함
    3. 그런데 여기서 한 단계 더 가서, 광고, 자바스크립트, 팝업으로 뒤덮인 콘텐츠를 내가 직접 사용하기 어려워서 LLM(대형 언어 모델)을 이용해 내용을 요약해서 보게 된다면, 왜 내가 Firefox 브라우저로 웹사이트에 접근하는 것과 LLM이 나 대신 웹사이트에 접근하는 게 법적으로 다른 취급을 받아야 하는지 모르겠음
    • 몇몇 매장은 Instacart나 Postmates 같은 서비스를 환영하지 않음
      네가 직접 쇼핑하든, 가격 비교를 위해 휴대폰으로 모든 물건을 스캔하든 건 상관없음
      하지만 제3자 서비스가 자체 직원을 보내서 재고를 조사하거나, 온라인 주문 후 물건을 대신 픽업하는 건 허용 안 함
      이유는 다양함: 상품 품질 인식 제어를 잃고 싶지 않은 점(식음료가 차가워진다거나, 가격이 올라간다거나, 잘못된 대체가 이루어진다거나), 직원이 직접 서비스하며 고객과 관계를 쌓고 싶음, 아니면 그냥 제3자 딜리버리 자체를 반대하는 경우도 있음
      관련 없는 기업이 내 오프라인 매장 안에서 영업하는 걸 거부하는 건 당연히 합리적인 선택이라고 생각함
      이런 논리가 디지털 서비스에도 적용된다고 봄

    • 이건 규모의 문제임
      너가 말한 다음 단계는 아마도
      사람들이 개인용 리서치 봇을 돌려 수많은 사이트에서 답을 찾아 페이지를 사람보다 훨씬 빠르게 요청하는 날임
      어느 지점까지가 허용 가능한지 고민이 필요함
      개인 크롤링은 괜찮은가? 아니면, 봇이 좀 더 똑똑해져서 사용자가 뭘 물어볼지 미리 예측하고 항상 최신 정보로 크롤링하는 건?
      혹은 규모가 더 커져서 여러 이용자용 대량 크롤링이 시작되면 그때는 문제가 되는 것인가?

    • 나는 "크롤러"와 "페처(fetcher)"라는 용어로 대량 스크래핑과 사용자 타겟팅 에이전트를 구분하는 게 좋다고 봄
      최근 AI 에이전트 탐지 도구 개발에 참여하고 있는데(참고: https://stytch.com/blog/introducing-is-agent/), 웹사이트 운영자가 AI 에이전트를 식별해 제한된 접근 방법을 권유할 수 있는 건 진정한 가치가 있다고 생각함
      반면에, 크롤러들은 남의 이름을 도용해 명성 있는 크롤러인 척하며 robots.txt를 무시하고 나쁜 행동을 할 수 있음
      표준 해법이 현재로선 IP의 역방향 DNS 조회인데, 이 역시 사이트 운영자 입장에선 번거로움
      차라리 특이한 접근을 모두 차단하는 게 더 효율적이라 생각함

    • 광고 모델 자체가 문제가 많다는 점 동의함
      하지만 AI 회사들이 콘텐츠 제작자와 이용자를 분리시키는 상황은 내가 앞으로 보고 싶은 웹의 모습이 아님
      예를 들어 누군가가 유료 뉴스레터를 운영하면서, 일부만 무료로 공개해 관심 있는 방문자를 모으고, 이 중 일부를 결제 사용자로 전환시킴
      이런 제작자는 ‘콘텐츠 보면서 업셀(가입 유도)’이 반드시 함께 이뤄지길 기대함
      만약 AI 크롤러가 그 과정을 건너뛰고 중요한 콘텐츠만 뽑아가면, 굳이 공짜로 웹에 올릴 이유가 없음
      AI 크롤러가 이기면 결국 모두가 손해임

    • 세상에 광고 범벅이 아닌 페이지도 정말 많음
      기존 검색 엔진은 ‘우리가 페이지 크롤링 허용할 테니 네가 트래픽 가져다 달라’는 묵시적 계약이 있었음
      비공개 모델을 위한 AI 크롤러는 이 계약을 깨뜨림
      데이터로 모델을 만들어 QA(질의응답) 기능을 갖추고, LLM 운영 회사가 웹사이트에서 크롤러 통해 얻은 지식으로 수십억 수익을 내지만, 웹사이트에게 돌아오는 건 없음
      그냥 유저 요청용으로 가져온다 하더라도 LLM 제공자가 수익의 대부분을 가져가고, 실제 콘텐츠 저자는 아예 방문조차 못 받게 됨
      만약 Perplexity가 robots.txt와 차단을 무시하고 유저 요청용으로 페이지를 가져가는 게 괜찮다면, 그 데이터를 학습에 여차하면 활용하지 않을 것이라 기대하긴 힘듦

  • 빠른 변화가 흥미롭다고 느낌
    웹이 ‘전 세계’가 아닌 더 작거나 구성원 중심(반드시 지리적 의미가 아니라 사회적 의미에서)의 공동체로 집중하는 게 오히려 유익함
    자신만의 커뮤니티를 키우고, 더 사적인 공간으로 초대하는 방식이 앞으로 더 중요해질 것 같음
    옛날의 개방형 웹은 기계들 위한 공간이 될 듯
    우리가 예전에는 ‘버블(거품, 자기만의 공간)’을 싫어했지만, 사실 버블은 당연하고, 혼자만 아니면 분명 의미 있음
    웹에 기계와 기계 콘텐츠가 넘쳐나게 되면, 결국 사람들은 다시 서로 연결되는 법을 배울 것임

  • Perplexity AI를 질문으로 테스트해봤을 때, 차단된 도메인 내용도 상세히 알려준다는 실험결과에 대해
    이 내용이 특정 회사(Perplexity)를 비판하는 마케팅성 기사로서 결론이 애매하다고 느낌
    Perplexity가 직접 크롤링(시스템적으로 모든 페이지를 훑는 것)을 한 건지, 유저 요청에 따라 그냥 한 번 가져온 건지 구분이 명확하지 않음
    대부분의 사람은 이 둘을 다르게 보며, 후자가 전자보다 훨씬 더 용인될 만하다고 생각함

    • 뭔가 Perplexity 광고처럼 느껴짐
      이번에도 Cloudflare가 착한 역할, Perplexity가 나쁜 역할로 나오는데, Cloudflare 역시 요즘 웹을 살리겠다는 마케팅을 세게 함
      근거는 얕고 양사 모두 “거인들의 싸움”처럼 비춰져서, 어쩌면 Perplexity에겐 PR적으로 오히려 이득이 되는 전개라고 느껴짐

    • 사용자 대신 페이지를 가져오는 건 원론적으로 허용될 수 있지만, AI 기업들이 이미 저작권 등 규범을 무시해온 걸 보면, 페이지 내용을 또 저장해 미래 학습이나 추가 크롤링에 쓸 가능성을 무시할 수 없다고 생각함

    • HTTP 스펙(사양)에서도 이런 구분이 간접적으로 드러남
      “user agent(사용자 에이전트)”라는 개념이나 명칭에서 구체적으로 분리된다는 점이 있음

    • AI가 결과를 다 캐싱하거나 아카이브해서 많은 사람들이 사용하게 된다면, 결국 그건 스크래퍼랑 다를 게 없어짐
      캐시된 데이터로 학습만 하면 되는 것임
      중간자 역할을 하면서 중요한 콘텐츠를 빼가고, 덤으로 데이터 가치 신호까지 얻는 방식임

  • Perplexity가 TechCrunch에 보낸 답변에 따르면
    Cloudflare 블로그 포스트는 “세일즈용 호객행위”에 불과하다고 일축함
    게다가 블로그 스크린샷은 “아무 콘텐츠도 접근된 적이 없음을 보여준다”고 주장
    블로그에서 지목한 봇도 자기들 것이 아니라고 덧붙임

  • Perplexity 자체는 크롤러를 막고 있음

    $ curl -sI https://www.perplexity.ai | head -1
    HTTP/2 403
    

    브라우저 user agent로 속여도 똑같이 차단됨
    꽤 정교한 크롤러 탐지 방식을 활용하는 것 같음

  • 항상 ‘스텔스’ 크롤러가 이길 거임
    브라우저 자동화 도구(W3C WebDriver2, Chrome DevTools 프로토콜)로 스크래퍼를 만들어 탐지가 거의 불가능해짐
    캡차(captcha)를 걸 수 있지만, 개발자가 휴먼인더루프(사람 개입) 워크플로를 넣어 콜센터 근무시간 중엔 사람이 직접 처리하게 설계할 수도 있음
    15년 전 게임 개발 테스팅에서도 ‘래스터(화면이미지)’ 기반 스크래핑 기법이 쓰였는데, 이런 게 오늘날 인터넷 경찰을 상당히 곤란하게 만들 것임

    • 스텔스 크롤러가 이길 수 없는 이유는, 결국 가치 있는 모든 사이트 접근에 원격 증명이 필수가 될 거라 생각함
  • 인터넷에 마이크로페이먼트(초소액 결제) 시스템이 필요하다고 봄
    크롤러가 페이지당 1센트라도 내준다면 24시간 크롤링 모두 환영임
    내가 직접 1센트씩 내고 콘텐츠를 보면, 클릭랩이나 기묘한 광고 규칙을 견딜 필요 없음
    무료 접근이 항상 봉쇄될 필요는 없음(실제로는 봉쇄될 테지만 그건 또 의미 있음)
    예를 들어 Reddit이 높은 수수료를 부과하되 좋은 콘텐츠에는 환급을 해 품질을 높일 방법도 상상함
    “선입금-출금-페널티” 같은 새로운 시스템도 가능함: 가입 때 보증금을 걸고, 밴 당하면 몰수, 정상적으로 활동하면 환급하는 식. 이는 관리 업무 단순화와 콘텐츠 품질향상 목적임
    이런 발상이 필요한 건, 지금 인터넷이 점점 더 쓰레기로 가득 차기 때문임
    또 다른 아이디어: 구글 등에 검색 한 번당 1센트씩 내고, 결과가 맘에 안 들면 돈을 돌려받을 수 있게 하는 것
    구글 AI가 만족도 측정해주고, 만족스런 검색이 안 되면 광고 범벅 인기순만 보여줌
    그러면 유저가 다른 검색엔진에 돈을 맡기는 방식임

  • 누군가가 웹사이트를 무분별하게 크롤링하다가 공개망 신뢰성을 위협하면 문제라는 점에서, Cloudflare 같은 권위 있는 기관이 공공연히 '사기성 스크래핑'에 대해 공개적으로 비판하는 것은 긍정적임
    이런 논란이 대화에 불을 붙일 수 있다는 점 자체가 의미 있음
    결국 주요 플레이어들이 예전처럼 최소한 ‘룰’은 지키던 검색 시대로 돌아갈 필요가 있음

    • 지금은 ‘부끄러움이 없는 시대’라서, 망신주기가 효과 없다고 생각함
  • 직접 구축한 개인 검색 엔진도 Perplexity 수준의 기능을 어느정도 구현할 수 있음
    지인들끼리 비교해 봤을 때, Perplexity와 거의 반반의 선호를 받음
    엔진이 연구 목적으로 웹페이지 다운로드까진 가능함
    하지만 캡차에 걸리거나 차단당하면 곧장 포기함
    반면 대형 IT기업들은 수십억 벤처투자금을 등에 업고서 뭐든지 할 수 있다고 생각하며, 이런 태도에 분노함

  • “Cloudflare 관리 robots.txt 기능이나 AI 크롤러 차단 규칙을 활용해, 250만개 넘는 웹사이트가 AI 학습 전체 차단을 선택했다”는 주장이 나옴
    하지만 사실은 Cloudflare CEO가 해당 기능을 기본값으로 모든 고객에게 적용한 것임
    AI 추천을 원하거나 트래픽을 중시하는 기업이라면, 해당 옵션을 꺼야 재정적으로 피해를 막음

    • “기본값 적용”은 거짓말임
      내가 직접 Cloudflare 사이트들을 점검해봤는데, 아무런 설정도 안 했을 때 해당 기능이 기본 적용되지 않음
      robots.txt가 없으면 “Cloudflare 관리 robots.txt를 활성화할지 고려하세요”만 나옴
      기존 파일이 있으면 그대로 남고, AI 트래픽 안내도 수동으로 꺼져 있음

    • “AI 추천을 받고 싶으면 설정 꺼야 한다”는 주장에 대해
      콘텐츠 마케팅, 게임화된 SEO, 광고 남발이 Google 검색 품질을 크게 해침
      반면 LLM(대형 언어 모델)은 아직 이런 ‘게임화’가 크게 보이지 않음
      언젠가 LLM도 망가진 검색처럼 변할 수 있겠지만, OpenAI나 Anthropic도 이런 검색 품질 하락이 구글 트래픽 감소의 원림을 인지하길 바람

    • “기본값 적용 주장”은 완전히 거짓임
      실제로는 아무 설정도 안 해도 해당 기능에 자동으로 ‘가입’되지 않음
      심지어 이 주장이 맞던 시기도 지금은 아니고, 원래부터 사실과 달랐음