GN⁺: GPTBot - OpenAI의 웹 크롤러
(platform.openai.com)- OpenAI가 개발한 웹 크롤러인 GPTBot 소개글
- "GPTBot" 이라는 유저 에이전트 토큰 및 전체 유저 에이전트 문자열로 식별 가능
- GPTBot이 크롤링한 웹 페이지는 미래의 AI 모델 개선에 사용될 수 있음
- 크롤러는 페이월 접근이 필요한 소스, 개인 식별 정보(PII) 수집한다고 알려진 곳, OpenAI 정책을 위반하는 텍스트를 필터링함
- GPTBot에 사이트 접근을 허용하면 AI 모델의 정확성, 일반 기능, 안전성 향상에 도움이 될 수 있음
- 사이트의 robots.txt에 GPTBot을 추가하여 사이트 접근을 방지 가능하며, 사이트의 특정 디렉토리에 대한 GPTBot의 접근 허용도 가능
- 크롤러가 사용하는 IP egress 범위는 OpenAI 웹사이트에 별도로 명시 되어있음
페이월 접근이 필요한 웹사이트 관리자들이 ChatGPT 모델에 자신의 내용을 추가하기 위해 Bot 접근을 풀어주게 되려나요?
현재 유료 접근이 필요한 사이트들도 종종 구글 봇한테는 캐싱하도록 열어주고 있습니다.
물론 이를 역으로 활용해서 크롤링하는 로봇들도 있긴합니다만 ㅎ
Hacker News 의견
- OpenAI의 웹 크롤러, GPTBot의 웹사이트에 대한 잠재적 영향 논의 중
- 일부 사용자들, GPTBot에게 다른 콘텐츠를 반환하는 실험을 제안하여 AI 모델 훈련에 어떤 영향을 미치는지 확인
- "429 너무 많은 요청" 응답 헤더를 무시하는 GPTBot에 대한 우려, 요청 제한이 있는 API를 가진 작은 프로젝트에 문제를 일으킬 가능성
- 사용자들, 자신들의 사이트에 GPTBot의 접근을 허용하는 것의 이점에 의문, 원래 콘텐츠 제작자에게 직접적인 이익이나 크레딧을 제공하지 않고 AI 모델을 개선하는 데 그들의 콘텐츠를 사용할 수 있음
- 표절 가능성에 대한 우려, GPTBot이 콘텐츠를 다시 표현하고 출처를 인용하지 않아, 자료의 원래 출처를 증명하기 어려움
- 일부 사용자들, 이러한 우려로 인해 GPTBot을 차단하는 것을 고려 중, 하지만 이것이 이러한 제한을 존중하지 않는 봇에게 경쟁 우위를 줄 수 있을지 의문
- 논의는 웹 크롤링에 의한 저작권 침해라는 더 넓은 문제에 대해서도 언급, 일부 사용자들은 출처를 인용하지 않는 기계 학습 모델을 적대적이고 저작권을 침해할 수 있는 것으로 간주해야 한다고 주장