1P by neo 3달전 | favorite | 댓글 1개
  • 작성자는 어제 서버에서 AI 봇을 차단하는 내용의 글을 썼고, 오늘은 MacStories를 위해 동일한 작업을 수행했음
  • 설정이 완료된 후 Federico는 Perplexity라는 사이트에서 MacStories의 특정 게시물을 인용할 수 있었음
  • 작성자는 자신의 사이트에서 다음과 같은 변경 사항을 적용함:
    • 3월 30일: PerplexityBot 등의 봇을 robots.txt에서 차단하기 시작함
    • 6월 14일: nginx에서 서버 측 차단을 추가함. 일치하는 항목은 모두 403 Forbidden 응답을 반환함
  • 작성자는 모든 AI 회사가 robots.txt를 무시한다고 가정하고, 3월부터 요청해 왔지만 효과가 없었을 것으로 추정함
  • 작성자는 AI 봇 차단에 관한 글을 차단 조치가 적용된 후에 게시했기 때문에, User Agent가 전송된다고 가정하면 Perplexity는 해당 사이트에 접근할 수 없어야 함
  • 그러나 Perplexity에 해당 게시물에 대해 질문했을 때, 추측만으로는 알 수 없는 세부 정보를 포함한 완벽한 요약을 받음
  • 작성자는 Chrome의 User Agent 스푸핑만 테스트했기 때문에 잘못 설정했을 수도 있다고 생각했음
  • 하지만 Perplexity가 요청에 사용한다고 주장하는 User Agent인 PerplexityBot을 사용하여 코드를 테스트했을 때, 예상대로 403 응답을 받아 nginx 설정에는 문제가 없었음
  • 작성자가 Perplexity AI에게 robots.txt에도 불구하고 어떻게 사이트에 접근할 수 있었는지 물었을 때, Perplexity AI는 robots.txt에 의해 차단된 콘텐츠를 크롤링하거나 액세스할 수 있는 기능이 없으며, 제한된 콘텐츠에 접근하거나 요약하는 것은 윤리적이지 않다고 응답함
  • 그러나 Lewis는 Perplexity가 PerplexityBot을 포함하지 않은 다음과 같은 User Agent 문자열을 사용하고 있음을 확인함:
    Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3  
    
  • 작성자도 액세스 로그를 활성화한 후 Perplexity에 질문을 했을 때, Lewis와 동일하게 User Agent에 사용자 지정 User Agent가 포함되어 있지 않음을 확인함
  • Perplexity는 콘텐츠를 스크랩하기 위해 헤드리스 브라우저를 사용하고 있으며, robots.txt를 무시하고 올바른 User Agent 문자열도 전송하지 않고 있음
  • Perplexity의 IP 범위에 이러한 헤드리스 브라우저가 없는 것으로 보이기 때문에 IP 범위를 차단할 수도 없는 상황임
  • 작성자는 자신의 게시물이 AI 회사에 무료로 수집되는 것을 원하지 않지만 더 이상 할 수 있는 조치가 없음
  • 작성자는 Perplexity의 Discord에 가입하여 소개 채널에서 자신을 소개하고 버그 채널에 버그를 제출함
  • 다음 단계로 GDPR 요청을 고려하고 있지만 확실하지 않음.

GN⁺의 의견

  • AI 봇 차단의 중요성: AI 봇이 사이트의 콘텐츠를 무단으로 사용하는 것을 방지하기 위해서는 적절한 차단 방법이 필요함.
  • 사용자 에이전트 확인: AI 봇이 올바른 사용자 에이전트를 사용하지 않는 경우, 이를 확인하고 차단하는 것이 중요함.
  • robots.txt 파일의 한계: 많은 AI 봇이 robots.txt 파일을 무시할 수 있으므로, 추가적인 서버 측 차단 방법이 필요함.
  • 개인 정보 보호: GDPR과 같은 규정을 통해 AI 봇의 무단 접근을 방지할 수 있는 방법을 고려해야 함.
  • 대체 솔루션: 다른 AI 봇 차단 솔루션이나 보안 도구를 사용하여 사이트를 보호하는 것도 좋은 방법임.
Hacker News 의견
  • LLM이 내 데이터를 학습하지 못하게 하는 것은 가능해야 하며, Perplexity는 이를 쉽게 차단할 수 있도록 해야 함.
  • Perplexity가 실시간 웹 쿼리를 통해 내 웹사이트 데이터를 사용자에게 제공하는 것을 금지하는 것은 위험한 영역으로 들어가는 것임.
  • 광고 차단기, 리더 모드, 화면 읽기 프로그램 등도 Perplexity와 같은 방식으로 작동하며, 이를 금지하는 것은 많은 도구에 영향을 미칠 수 있음.
  • 웹사이트 소유자가 DRM을 사용해 웹사이트를 특정 방식으로만 표시하도록 강제하는 것은 원하지 않음.
  • Perplexity 사용자 에이전트가 적용되는 시점을 오해한 것 같음.
  • 웹사이트 소유자가 사용자가 어떤 브라우저를 사용할지 결정할 수 없으며, Perplexity도 예외가 아님.
  • Perplexity가 사용자 에이전트 없이 대량으로 데이터를 수집하는 것은 문제가 있으며, 이를 중단해야 함.
  • AI 회사가 웹사이트를 스크래핑해 모델을 학습하는 것과 사용자가 요청한 웹 페이지를 가져오는 것은 구분되어야 함.
  • Perplexity가 다른 사람의 콘텐츠를 가져가서 사용하는 것에 대한 문제를 다룬 기사 링크 제공.
  • Perplexity의 크롤러는 robots.txt를 존중해야 하며, 사용자 에이전트는 크롤러가 아니므로 이를 따를 필요는 없음.
  • AI 회사가 내 웹사이트를 스크래핑해도 상관없으며, 그들이 잘못된 데이터를 가져가도록 놔두겠음.
  • 웹 스크래핑을 해본 사람이라면 사용자 에이전트에 대해 거짓말하는 이유를 알 것임.
  • Perplexity CEO가 Google과 OpenAI를 비판했지만, 자신들도 robots.txt를 따르지 않고 사용자 에이전트를 숨긴 것이 드러남.
  • AI 회사가 내 콘텐츠를 무료로 가져가는 것을 막기 위해 보이지 않는 프롬프트 인젝션을 사용할 수 있음.
  • Perplexity가 자발적인 웹 표준을 따르지 않는 것이 거짓말이라고 할 수는 없음.