GPT-2/3/J는 r/counting이라는 서브레딧에서 사용자들이 무한대까지 증분 숫자를 게시하는 것을 보고, SolidGoldMagikarp와 같은 사용자 이름이 인터넷에서 흔한 문자열이라고 간주해 토크나이제이션 중에 최상위 토큰으로 취급함.
GPT-3의 어휘는 50,257개의 고유 토큰으로 제한되어 있었음. 이 서브레딧 사용자들의 틈새 취미로 인한 전력 비용 증가와, 실제 텍스트에서 흔한 하위 문자열에 슬롯을 할당하여 평균 입력 토큰 수를 줄이는 것 사이에는 선형 관계는 아니지만 측정 가능한 영향이 있었을 것으로 추측됨.
웹사이트 소유자가 robots.txt를 제대로 작성하지 않아 실제로 크롤링을 허용하는 부분을 주석 처리함.
콘텐츠 팜의 목적에 대한 궁금증이 제기됨. 무의미해 보이지만 기괴한 경제적 인센티브가 있을 것으로 의심됨. 제휴 링크가 있지만 수익은 얼마나 될지 의문임.
일부는 OpenAI 서버 팜에 실제 거미가 있어 다른 랙에 들어가기를 희망했음.
네트워크 보안에서 이를 타르핏(tarpit)이라고 함. 공격, 스캔, 자동화를 지연시켜 공격자의 시간과 에너지 낭비를 유도하고 방어 시간을 벌 수 있음.
OpenAI도 robots.txt를 따른다면 봇 차단과 데이터 수집 문제가 있음. 상위 10만 웹사이트 중 11%가 이미 크롤러를 차단하고 있어 경쟁사들보다 많음.
웹사이트 주인은 수백만 페이지 검색을 크게 신경 쓰지 않는 듯하니 OpenAI가 하고 싶은 대로 하게 놔두는 것이 좋겠음.
결국 OpenAI 등은 대부분 AI가 생성한, 종종 약간 부정확한 콘텐츠로 모델을 학습하게 될 것이고, 이는 AI 응답의 품질 저하로 이어질 수 있음. 현재는 대부분 인간이 작성한 콘텐츠지만 5년 후에는 그렇지 않을 것임. AI 업계가 빨리 해결해야 할 문제 중 하나임.
이런 유형의 웹사이트 목적 자체가 스파이더의 시간/리소스를 낭비시키는 것인데, 왜 OpenAI에게는 그렇게 하지 않으려 할까?
Hacker News 의견
GPT-2/3/J는 r/counting이라는 서브레딧에서 사용자들이 무한대까지 증분 숫자를 게시하는 것을 보고, SolidGoldMagikarp와 같은 사용자 이름이 인터넷에서 흔한 문자열이라고 간주해 토크나이제이션 중에 최상위 토큰으로 취급함.
GPT-3의 어휘는 50,257개의 고유 토큰으로 제한되어 있었음. 이 서브레딧 사용자들의 틈새 취미로 인한 전력 비용 증가와, 실제 텍스트에서 흔한 하위 문자열에 슬롯을 할당하여 평균 입력 토큰 수를 줄이는 것 사이에는 선형 관계는 아니지만 측정 가능한 영향이 있었을 것으로 추측됨.
웹사이트 부제목인 "IECC ChurnWare 0.3"이 GPT-5의 토큰이 된다면 재미있을 것임.
웹사이트 소유자가 robots.txt를 제대로 작성하지 않아 실제로 크롤링을 허용하는 부분을 주석 처리함.
콘텐츠 팜의 목적에 대한 궁금증이 제기됨. 무의미해 보이지만 기괴한 경제적 인센티브가 있을 것으로 의심됨. 제휴 링크가 있지만 수익은 얼마나 될지 의문임.
일부는 OpenAI 서버 팜에 실제 거미가 있어 다른 랙에 들어가기를 희망했음.
네트워크 보안에서 이를 타르핏(tarpit)이라고 함. 공격, 스캔, 자동화를 지연시켜 공격자의 시간과 에너지 낭비를 유도하고 방어 시간을 벌 수 있음.
OpenAI도 robots.txt를 따른다면 봇 차단과 데이터 수집 문제가 있음. 상위 10만 웹사이트 중 11%가 이미 크롤러를 차단하고 있어 경쟁사들보다 많음.
웹사이트 주인은 수백만 페이지 검색을 크게 신경 쓰지 않는 듯하니 OpenAI가 하고 싶은 대로 하게 놔두는 것이 좋겠음.
결국 OpenAI 등은 대부분 AI가 생성한, 종종 약간 부정확한 콘텐츠로 모델을 학습하게 될 것이고, 이는 AI 응답의 품질 저하로 이어질 수 있음. 현재는 대부분 인간이 작성한 콘텐츠지만 5년 후에는 그렇지 않을 것임. AI 업계가 빨리 해결해야 할 문제 중 하나임.
이런 유형의 웹사이트 목적 자체가 스파이더의 시간/리소스를 낭비시키는 것인데, 왜 OpenAI에게는 그렇게 하지 않으려 할까?
이런 허니팟은 LLM 학습을 오염시키는 흥미로운 방법으로 보임.