OpenAI 내부 연락처 보유자 누구든지, 거미 문제 해결 요청

(mailman.nanog.org)

2P by GN⁺ 2024-04-12 | ★ favorite | 댓글 1개

OpenAI GPTBot의 웹사이트 크롤링 문제

저자는 자신의 웹사이트 web.sp.am에 OpenAI의 GPTBot이 방문해 과도하게 페이지를 크롤링하는 문제가 있음
- 하루에 약 300만 페이지를 요청했고, 그 중 180만건은 robots.txt 요청이었음
- 저자의 사이트는 Content Farm 형태로 68억 5900만개의 웹사이트가 각각 1개의 페이지를 가지고 있는 구조임
- 모든 페이지가 거의 동일해 보이고 같은 IP, 같은 와일드카드 SSL 인증서를 사용하고 있어 크롤러가 상황을 파악하기 어렵지 않은 상황임
1~2달 전에는 아마존의 크롤러도 비슷한 문제를 일으켜, 연락을 취해 크롤링을 중단시킬 수 있었음
저자는 OpenAI에도 연락할 수 있는 사람이 있는지 문의하고 있음
저자는 GPT-5 학습에 자신의 웹사이트 데이터가 사용되고 있는 것 같다고 농담을 하고 있음

GN⁺의 의견

크롤러가 robots.txt를 제대로 해석하지 못하고 과도한 요청을 보내는 것은 악의적이진 않더라도 상대방 입장에서는 서비스에 피해가 갈 수 있는 심각한 문제임. OpenAI도 빠른 시일 내에 크롤러 로직을 보완해야 할 것으로 보임
특히 Content Farm처럼 수많은 도메인을 운영하는 곳에서는 각각의 사이트를 개별적으로 크롤링하지 않도록 IP 기반 필터링 등의 방안을 고려해야 함
크롤링 봇의 동작을 모니터링하고 이상 징후를 탐지해 빠르게 대응할 수 있는 프로세스와 시스템이 필요해 보임
크롤링 대상 사이트 관리자와 긴밀히 커뮤니케이션 하면서 피해를 최소화할 수 있도록 해야 함. 무조건 데이터 수집에만 집중할 것이 아니라 상생의 관점이 중요함

▲

GN⁺ 2024-04-12 [-]

Hacker News 의견

GPT-2/3/J는 r/counting이라는 서브레딧에서 사용자들이 무한대까지 증분 숫자를 게시하는 것을 보고, SolidGoldMagikarp와 같은 사용자 이름이 인터넷에서 흔한 문자열이라고 간주해 토크나이제이션 중에 최상위 토큰으로 취급함.
GPT-3의 어휘는 50,257개의 고유 토큰으로 제한되어 있었음. 이 서브레딧 사용자들의 틈새 취미로 인한 전력 비용 증가와, 실제 텍스트에서 흔한 하위 문자열에 슬롯을 할당하여 평균 입력 토큰 수를 줄이는 것 사이에는 선형 관계는 아니지만 측정 가능한 영향이 있었을 것으로 추측됨.
웹사이트 부제목인 "IECC ChurnWare 0.3"이 GPT-5의 토큰이 된다면 재미있을 것임.
웹사이트 소유자가 robots.txt를 제대로 작성하지 않아 실제로 크롤링을 허용하는 부분을 주석 처리함.
콘텐츠 팜의 목적에 대한 궁금증이 제기됨. 무의미해 보이지만 기괴한 경제적 인센티브가 있을 것으로 의심됨. 제휴 링크가 있지만 수익은 얼마나 될지 의문임.
일부는 OpenAI 서버 팜에 실제 거미가 있어 다른 랙에 들어가기를 희망했음.
네트워크 보안에서 이를 타르핏(tarpit)이라고 함. 공격, 스캔, 자동화를 지연시켜 공격자의 시간과 에너지 낭비를 유도하고 방어 시간을 벌 수 있음.
OpenAI도 robots.txt를 따른다면 봇 차단과 데이터 수집 문제가 있음. 상위 10만 웹사이트 중 11%가 이미 크롤러를 차단하고 있어 경쟁사들보다 많음.
웹사이트 주인은 수백만 페이지 검색을 크게 신경 쓰지 않는 듯하니 OpenAI가 하고 싶은 대로 하게 놔두는 것이 좋겠음.
결국 OpenAI 등은 대부분 AI가 생성한, 종종 약간 부정확한 콘텐츠로 모델을 학습하게 될 것이고, 이는 AI 응답의 품질 저하로 이어질 수 있음. 현재는 대부분 인간이 작성한 콘텐츠지만 5년 후에는 그렇지 않을 것임. AI 업계가 빨리 해결해야 할 문제 중 하나임.
이런 유형의 웹사이트 목적 자체가 스파이더의 시간/리소스를 낭비시키는 것인데, 왜 OpenAI에게는 그렇게 하지 않으려 할까?
이런 허니팟은 LLM 학습을 오염시키는 흥미로운 방법으로 보임.

답변달기