Miasma: AI 웹 스크레이퍼를 끝없는 오염 루프로

▲

GN⁺ 1달전 | parent | ★ favorite | on: Miasma: AI 웹 스크레이퍼를 끝없는 오염 루프로 가두는 도구(github.com/austin-weeks)

Hacker News 의견들

누군가 전화 스패머를 45분 동안 붙잡아두는 것처럼, 이런 봇 교란 기법이 실제로 효과가 있는지 의문임
Google Search 정책에 따르면 숨겨진 링크 삽입은 명백한 위반으로, 사이트 순위가 떨어지거나 검색 결과에서 제외될 수 있음
결국 이런 방식은 봇보다 내 사이트에 더 큰 피해를 줄 수도 있음
- 자동화한다면 효과가 있을 수도 있다고 생각함
  유튜버 Kitboga가 AI 콜센터로 스팸 전화를 붙잡아두는 영상처럼, 적의 자원을 소모시키는 게릴라식 전술로 볼 수 있음
- 나는 실제로 전화 스패머를 오래 붙잡아둔 뒤로 더 이상 전화가 오지 않음
  그들은 “전화 금지 목록”과 “비수익 목록”을 따로 두는 것 같음. 후자에 오르는 게 핵심임
- 2000년대 러시아의 영어 학원 스팸 사례가 떠오름
  사람들이 너무 화가 나서 Golden Telecom이 자동 보복 전화를 걸어 회사가 사라졌음
  이런 식으로 효과를 볼 수도 있지만, 모뎀 풀 임대가 필요함
- 숨겨진 링크 삽입이 금지된다는 점은 맞지만, 나는 오히려 ‘스몰 웹’ 부활의 계기로 보고 싶음
  반(反)스크래핑, 반(反)Google 크롤러, 인간 중심의 검색 인덱스를 갖춘 도구가 생긴다면 가능성이 있음
- 실제로 이런 데이터 오염 기법이 효과가 있다는 연구가 있음
내 공개 웹사이트의 콘텐츠가 스크래퍼들에게 도둑맞고 있음
결국 나도 이 글을 훔쳤고, 너도 내 댓글을 훔치는 셈임. 세상은 도둑투성이임
- 문제는 그들이 너무 많은 요청을 보내서 내 사이트가 다운된다는 점임
  콘텐츠는 모두에게 열려 있지만, 모두가 접근할 수 없게 만드는 건 싫음
- ‘도둑질’이라는 표현은 과하지만, 내 글이 돈벌이 수단으로 악용되는 건 불쾌함
  이런 상황이 계속되면 더 이상 공유하고 싶지 않음
- 인간은 법적으로 권리와 자유를 가지지만, LLM은 그렇지 않음
  결국 인간과 기업의 도구를 동일선상에 놓는 건 잘못된 비교임
- “Welcome to the internet…” 식의 풍자적 문구처럼, 이미 우리는 데이터와 프라이버시를 포기한 세상에 살고 있음
예전에 유료 소프트웨어를 만들며 복제 방지 코드를 넣었는데, 매번 새로운 크랙이 등장했음
결국 그 싸움이 무의미하다는 걸 깨닫고 보호 코드를 제거했음
AI 봇의 크롤링을 막으려는 시도도 같은 두더지 잡기 게임 같음
- 차라리 크래킹을 지루하게 만드는 전략을 썼다면 이겼을지도 모름
  하지만 커뮤니티의 동기 자체가 재미와 명성이라 현실적으로 어렵다고 봄
- 사실 많은 문제는 집착을 내려놓으면 해결됨
  하지만 SNS와 저작권 집착이 사람들의 통제 욕구를 키워버렸음
이런 기법이 실제로 효과가 있는지 궁금함
대부분의 스크래퍼는 이미 이런 방어를 우회할 기술을 갖췄을 것 같음
- 설령 효과가 있더라도, 솔직히 이제는 신경 쓸 힘이 없음. 피로감만 남음
- 나는 가짜 Python 라이브러리를 만들어 GitHub에 올렸는데, 몇 달 뒤 ChatGPT가 그걸 학습했음
  내 경험상 이런 방식은 어느 정도 통함
- 수백 개의 봇이 유료 프록시를 쓰고 있으니, 그들에게 비용을 지불하게 만들면 됨
- Meta나 Anthropic의 크롤러는 생각보다 정교하지 않음
  내가 만든 쓰레기 데이터를 학습했는지는 모르겠지만, 꿈이라도 꿔보는 중임
데이터 오염(data poisoning) 접근은 흥미로움
모델이 웹 데이터를 학습할 때 그 안의 편향과 조작을 그대로 물려받음
악의적 행위자가 대규모로 데이터를 오염시키면 학습 자체가 적대적 구조로 변함
결국 해결책은 신뢰 가능한 데이터 출처 관리(provenance) 임
이런 시도는 결국 AI가 더 똑똑해지는 훈련 데이터를 제공하는 셈임
광고 기반 콘텐츠 시장이 무너질 가능성이 크고, 그 결과 콘텐츠 품질 중심의 시장으로 재편될 것 같음
- “그럼 아무것도 하지 말자는 거냐?”는 반문이 나올 수 있지만, 현실적으로 대응이 쉽지 않음
- AI가 광고 기반 콘텐츠의 종말을 앞당길 것임
  대신 직접 라이선스를 맺고 데이터를 제공하는 모델이 자리 잡을 것임
- 만약 크롤러가 모든 링크를 클릭하지 않고 로컬에서 파싱만 한다면, 그건 오히려 승리라고 생각함
- 결국 기술은 끝없는 군비 경쟁의 연속임
단순히 style="display:none"이나 aria-hidden="true" 속성을 제거하면 이런 트릭을 피할 수 있지 않나 싶음
- 하지만 그렇게 하면 robots.txt를 무시하게 됨
  정직한 스크래퍼라면 그 규칙을 따르는 게 맞음
- 링크를 완전히 숨기지 말고, 화면 밖에 작게 배치하면 됨
  사람은 못 보고, 봇은 따라가게 할 수 있음
이런 아이디어는 멋지지만, 결국 중소기업(SME) 에게 더 큰 피해를 줄 것임
대기업만 더 강해지고, 작은 사이트는 AI 검색 결과에서 사라짐
결국 흐름에 따르는 수밖에 없고, 가끔 작은 저항을 남기는 정도가 현실임
Nightshade 2.0 같은 도구는 엉성한 주목 끌기용 프로젝트로 보임
진짜 해결책은 LLM 친화적 포맷으로 데이터를 제공하는 것임
단순한 display:none 트릭은 스마트 크롤러에게는 통하지 않음
관련 스레드 참고
진짜 흥미로운 건 이 프로젝트가 사용하는 Poison Fountain 데이터셋임
rnsaffn.com/poison3에 “기계 지능 시스템에 피해를 주고 싶다”는 문구가 있음
이런 해커 이념이 역할극(roleplay) 처럼 느껴져 공감하기 어렵다고 생각함
- 하지만 정작 “오염된 데이터가 무엇인지”, 그리고 “소량으로도 큰 영향을 준다”는 주장의 근거는 아무도 설명하지 않음