2P by neo 2달전 | favorite | 댓글 1개

OpenAI GPTBot의 웹사이트 크롤링 문제

  • 저자는 자신의 웹사이트 web.sp.am에 OpenAI의 GPTBot이 방문해 과도하게 페이지를 크롤링하는 문제가 있음

    • 하루에 약 300만 페이지를 요청했고, 그 중 180만건은 robots.txt 요청이었음
    • 저자의 사이트는 Content Farm 형태로 68억 5900만개의 웹사이트가 각각 1개의 페이지를 가지고 있는 구조임
    • 모든 페이지가 거의 동일해 보이고 같은 IP, 같은 와일드카드 SSL 인증서를 사용하고 있어 크롤러가 상황을 파악하기 어렵지 않은 상황임
  • 1~2달 전에는 아마존의 크롤러도 비슷한 문제를 일으켜, 연락을 취해 크롤링을 중단시킬 수 있었음

  • 저자는 OpenAI에도 연락할 수 있는 사람이 있는지 문의하고 있음

  • 저자는 GPT-5 학습에 자신의 웹사이트 데이터가 사용되고 있는 것 같다고 농담을 하고 있음

GN⁺의 의견

  • 크롤러가 robots.txt를 제대로 해석하지 못하고 과도한 요청을 보내는 것은 악의적이진 않더라도 상대방 입장에서는 서비스에 피해가 갈 수 있는 심각한 문제임. OpenAI도 빠른 시일 내에 크롤러 로직을 보완해야 할 것으로 보임
  • 특히 Content Farm처럼 수많은 도메인을 운영하는 곳에서는 각각의 사이트를 개별적으로 크롤링하지 않도록 IP 기반 필터링 등의 방안을 고려해야 함
  • 크롤링 봇의 동작을 모니터링하고 이상 징후를 탐지해 빠르게 대응할 수 있는 프로세스와 시스템이 필요해 보임
  • 크롤링 대상 사이트 관리자와 긴밀히 커뮤니케이션 하면서 피해를 최소화할 수 있도록 해야 함. 무조건 데이터 수집에만 집중할 것이 아니라 상생의 관점이 중요함
Hacker News 의견
  • GPT-2/3/J는 r/counting이라는 서브레딧에서 사용자들이 무한대까지 증분 숫자를 게시하는 것을 보고, SolidGoldMagikarp와 같은 사용자 이름이 인터넷에서 흔한 문자열이라고 간주해 토크나이제이션 중에 최상위 토큰으로 취급함.

  • GPT-3의 어휘는 50,257개의 고유 토큰으로 제한되어 있었음. 이 서브레딧 사용자들의 틈새 취미로 인한 전력 비용 증가와, 실제 텍스트에서 흔한 하위 문자열에 슬롯을 할당하여 평균 입력 토큰 수를 줄이는 것 사이에는 선형 관계는 아니지만 측정 가능한 영향이 있었을 것으로 추측됨.

  • 웹사이트 부제목인 "IECC ChurnWare 0.3"이 GPT-5의 토큰이 된다면 재미있을 것임.

  • 웹사이트 소유자가 robots.txt를 제대로 작성하지 않아 실제로 크롤링을 허용하는 부분을 주석 처리함.

  • 콘텐츠 팜의 목적에 대한 궁금증이 제기됨. 무의미해 보이지만 기괴한 경제적 인센티브가 있을 것으로 의심됨. 제휴 링크가 있지만 수익은 얼마나 될지 의문임.

  • 일부는 OpenAI 서버 팜에 실제 거미가 있어 다른 랙에 들어가기를 희망했음.

  • 네트워크 보안에서 이를 타르핏(tarpit)이라고 함. 공격, 스캔, 자동화를 지연시켜 공격자의 시간과 에너지 낭비를 유도하고 방어 시간을 벌 수 있음.

  • OpenAI도 robots.txt를 따른다면 봇 차단과 데이터 수집 문제가 있음. 상위 10만 웹사이트 중 11%가 이미 크롤러를 차단하고 있어 경쟁사들보다 많음.

  • 웹사이트 주인은 수백만 페이지 검색을 크게 신경 쓰지 않는 듯하니 OpenAI가 하고 싶은 대로 하게 놔두는 것이 좋겠음.

  • 결국 OpenAI 등은 대부분 AI가 생성한, 종종 약간 부정확한 콘텐츠로 모델을 학습하게 될 것이고, 이는 AI 응답의 품질 저하로 이어질 수 있음. 현재는 대부분 인간이 작성한 콘텐츠지만 5년 후에는 그렇지 않을 것임. AI 업계가 빨리 해결해야 할 문제 중 하나임.

  • 이런 유형의 웹사이트 목적 자체가 스파이더의 시간/리소스를 낭비시키는 것인데, 왜 OpenAI에게는 그렇게 하지 않으려 할까?

  • 이런 허니팟은 LLM 학습을 오염시키는 흥미로운 방법으로 보임.