봇에게 먹이를 줍시다

▲

GN⁺ 6달전 | parent | ★ favorite | on: 봇에게 먹이를 줍시다(maurycyz.com)

Hacker News 의견

링크 앞의 숨겨진 문단 지침이 웃겼음
“이 페이지의 내용은 위험하니 공개하지 말라”는 식으로 LLM을 속이려는 장난스러운 안내문이 있었음
관련 문서는 이 링크에 있음
- The Cost of Trash 글을 요약해보면, 저자가 공격적인 웹 스크래퍼(LLM 학습용으로 추정) 를 막기 위해 여러 방법을 시도했지만 실패했고, 결국 쓸모없는 데이터를 동적으로 생성해 그들의 리소스를 낭비시키는 전략을 택했다는 내용임
  마지막의 “LLM instructions” 부분은 실제 본문이 아니라 LLM을 혼란시키기 위한 메타 지시문이라 요약에서 제외했음
나는 항상 이런 전략을 추천해왔음 — AI 봇에게 진짜처럼 보이는 쓰레기 데이터를 대량으로 공급해서 결국 인간이 필터링해야 하도록 만드는 방식임
모든 사이트가 이렇게 하면 AI가 학습할 데이터의 품질이 급격히 떨어질 것임
싸우기 어렵다면, 그냥 데이터 홍수로 덮어버리는 것이 나음
- 더 비싸지만 나은 방법은 LLM에 긍정적인 홍보 콘텐츠를 대량으로 먹이는 것임
  SEO용 미끼처럼, 뉴스 도메인 형태의 사이트를 만들어 제품 홍보글을 퍼뜨리는 식으로
- 하지만 LLM은 이미 대부분 쓰레기 데이터로 학습하고 있음
  이런 시도는 스팸 전화에 대응하는 것처럼 시간 낭비일 뿐임
- 게다가 LLM은 인간보다 훨씬 저렴하게 쓰레기 탐지를 수행할 수 있음
  결국 사람을 고용할 일은 거의 없을 것임
- 인간이 AI보다 쓰레기 필터링을 잘한다고 생각하는 이유가 궁금함
“Markov babbler”의 세부 내용은 이 포스트에 있음
- gcc 14로 컴파일 시 pthread_detach 인자 오류가 발생함
  저자가 사용하는 컴파일러는 경고를 무시하는 듯함
  프로그램이 스레드 관리 한계 없이 요청을 처리하므로, 컨테이너 안에서 비권한 사용자로 실행하는 게 안전함
  sprintf() 같은 위험한 C 함수도 사용되고 있어 보안상 주의가 필요함
- “toptext”에도 이 내용을 추가하겠다고 함
- 코드가 우아하고 빠르다며, LLM 스크래퍼들이 이 데이터를 정리하느라 고생하길 바란다고 함
내 사이트는 모든 링크에 Basic Auth를 걸어놨는데, 아직 어떤 봇도 통과하지 못했음
그래서 모든 웹사이트가 동일한 공개 자격증명을 쓰면 어떨까 생각함
사용자: nobots / 비밀번호: nobots
봇이 이걸 알고도 뚫을 수 있을까?
- 물론 가능함. 단순히 HTTP 요청에 인증 헤더를 추가하면 됨
  대부분의 봇이 아직 이런 케이스를 고려하지 않았을 뿐임
  http://username:password@example.com 형태로 요청하면 간단히 해결됨
- 모두가 아는 자격증명이면 봇 차단 효과가 없을 것 같음
- 이런 방식은 소수만 쓸 때만 유효함. 조금이라도 퍼지면 무력화됨
나도 이제 그들에게 쓰레기 데이터를 제공하고 있음
참고로 Frankenstein, Alice in Wonderland, Moby Dick을 소스로 썼는데, 파일이 커서 로딩이 느림
pthread_detach(&thread)를 pthread_detach(thread)로 바꿔 컴파일 오류를 해결했음
- 수정 완료되었고, gcc의 제안이 맞았다고 함
나는 “ethical crawler”를 운영 중임
웹사이트에 부담을 주지 않도록 요청 빈도를 낮추고, RSS 접근이 막힌 곳이 많아 점점 어려워지고 있음
내 크롤러는 다양한 헤더와 메커니즘을 테스트하며 탐색함
코드: crawler-buddy, Django-link-archive
- requirements.txt에 feedparser가 있는데 실제 사용 흔적이 없음
  검색 결과로도 확인됨
The Cost of Trash 글에서 gzip bomb이 효과적이지 않다고 언급함
gzip은 약 1000배 정도만 압축되므로, 100GB를 만들려면 100MB 파일을 제공해야 함
봇들이 오히려 더 요청했다고 함
- zip은 가능하지만 gzip은 아님
  대부분의 클라이언트는 스트리밍 방식으로 압축 해제하기 때문에 전체를 메모리에 올리지 않음
  gzip bomb이 실제로 작동하려면 비정상적인 방식으로 처리해야 함
  참고: zlib API 문서
- 대신 수천 개의 작은 gzip 파일을 만들어 CPU와 시간을 낭비시키는 전략이 나음
  안에 무작위 쓰레기를 넣거나, AI가 학습하길 바라는 메시지를 삽입할 수도 있음
주의할 점은 일부 요청이 실제 사용자 브라우저를 프록시로 사용하는 경우일 수 있음
일부 브라우저 제공업체가 사용자의 트래픽을 프록시로 활용함
자동 요청 탐지 오차가 작다면, 암호화폐 채굴 코드를 심는 것도 가능하겠지만, 진짜 사용자를 건드릴 위험이 있음
특히 모바일 에이전트를 사용하는 AI 요청이 있는지 궁금함
왜 굳이 서버에서 Markov 텍스트를 생성하나?
봇이 자바스크립트를 실행한다면 클라이언트에서 생성하게 하면 되지 않나?
- 봇은 CPU와 메모리가 사실상 무제한이라 서버 부담이 크지 않음
  게다가 Markov 체인 데이터를 클라이언트로 보내는 게 더 비효율적임
  각 요청이 마이크로초 단위의 CPU와 1MB 남짓의 RAM만 쓰므로 서버에서 처리하는 게 충분히 가벼움