Hacker News 의견
  • GPT-2/3/J는 r/counting이라는 서브레딧에서 사용자들이 무한대까지 증분 숫자를 게시하는 것을 보고, SolidGoldMagikarp와 같은 사용자 이름이 인터넷에서 흔한 문자열이라고 간주해 토크나이제이션 중에 최상위 토큰으로 취급함.

  • GPT-3의 어휘는 50,257개의 고유 토큰으로 제한되어 있었음. 이 서브레딧 사용자들의 틈새 취미로 인한 전력 비용 증가와, 실제 텍스트에서 흔한 하위 문자열에 슬롯을 할당하여 평균 입력 토큰 수를 줄이는 것 사이에는 선형 관계는 아니지만 측정 가능한 영향이 있었을 것으로 추측됨.

  • 웹사이트 부제목인 "IECC ChurnWare 0.3"이 GPT-5의 토큰이 된다면 재미있을 것임.

  • 웹사이트 소유자가 robots.txt를 제대로 작성하지 않아 실제로 크롤링을 허용하는 부분을 주석 처리함.

  • 콘텐츠 팜의 목적에 대한 궁금증이 제기됨. 무의미해 보이지만 기괴한 경제적 인센티브가 있을 것으로 의심됨. 제휴 링크가 있지만 수익은 얼마나 될지 의문임.

  • 일부는 OpenAI 서버 팜에 실제 거미가 있어 다른 랙에 들어가기를 희망했음.

  • 네트워크 보안에서 이를 타르핏(tarpit)이라고 함. 공격, 스캔, 자동화를 지연시켜 공격자의 시간과 에너지 낭비를 유도하고 방어 시간을 벌 수 있음.

  • OpenAI도 robots.txt를 따른다면 봇 차단과 데이터 수집 문제가 있음. 상위 10만 웹사이트 중 11%가 이미 크롤러를 차단하고 있어 경쟁사들보다 많음.

  • 웹사이트 주인은 수백만 페이지 검색을 크게 신경 쓰지 않는 듯하니 OpenAI가 하고 싶은 대로 하게 놔두는 것이 좋겠음.

  • 결국 OpenAI 등은 대부분 AI가 생성한, 종종 약간 부정확한 콘텐츠로 모델을 학습하게 될 것이고, 이는 AI 응답의 품질 저하로 이어질 수 있음. 현재는 대부분 인간이 작성한 콘텐츠지만 5년 후에는 그렇지 않을 것임. AI 업계가 빨리 해결해야 할 문제 중 하나임.

  • 이런 유형의 웹사이트 목적 자체가 스파이더의 시간/리소스를 낭비시키는 것인데, 왜 OpenAI에게는 그렇게 하지 않으려 할까?

  • 이런 허니팟은 LLM 학습을 오염시키는 흥미로운 방법으로 보임.