AI uBlock 블랙리스트
(github.com/alvi-se)- uBlock Origin에서 AI가 생성한 콘텐츠 농장 사이트를 차단하기 위한 공개 블랙리스트 프로젝트
- 생성형 AI가 작성한 웹사이트는 광고와 추천 링크로 채워져 있으며 신뢰할 수 없는 정보를 포함하는 경우가 많음
- 사용자는 list.txt 파일을 구독하거나 직접 URL을 추가해 차단 목록을 적용할 수 있음
- AI 생성 사이트의 특징과 식별 기준이 구체적으로 제시되어 있으며, 기여자들의 Pull Request를 통해 목록 확장이 가능함
- 검색 결과 상위에 노출되는 AI 콘텐츠 오염 문제를 줄이기 위한 실용적 도구로 활용 가능함
프로젝트 개요
-
AI uBlock Blacklist는 uBlock Origin 확장 프로그램에서 사용할 수 있는 AI 생성 콘텐츠 차단 리스트 제공
- 사용자는 Adblock Plus 구독 링크를 클릭하거나
https://raw.githubusercontent.com/alvi-se/ai-ublock-blacklist/…를 직접 추가 가능
- 사용자는 Adblock Plus 구독 링크를 클릭하거나
- 생성형 AI가 작성한 웹사이트를 탐색 중 발견할 때마다 수동으로 목록에 추가
- 자동화 도구는 사용하지 않으며, AI 생성 여부를 알고리듬으로 판별하기 어렵기 때문이라고 명시
프로젝트 목적
- 생성형 AI가 작성한 웹사이트는 유용한 정보가 부족하고 광고·추천 링크로 수익을 노리는 구조
- AI가 작성한 콘텐츠는 검수 없이 대량 게시되어 위험한 정보를 포함할 수 있음
- 예시로 회로 단락,
rm -rf /명령 실행, 표백제와 암모니아 혼합 등 위험한 조언을 제시할 가능성 언급
- 예시로 회로 단락,
- 이러한 이유로 AI 생성 콘텐츠는 신뢰할 수 없으며 차단이 필요함
- 작성자는 이탈리아 국적이라 이탈리아어 사이트가 다수 포함되어 있으며, 다른 언어 사이트 추가를 위한 기여를 환영
웹사이트 추가 방법
- 기술 지식이 없는 사용자는 GitHub Issue를 통해 의심 사이트를 신고 가능
- Pull Request를 통해 직접 추가할 경우, 도메인 단위 또는 특정 블로그 경로 단위로 차단 가능
- 예:
||example.com/@slopUser^$doc또는||example.com^$doc형식
- 예:
- SEO 및 디지털 마케팅 서비스를 판매하는 조직이 여러 콘텐츠 농장을 운영하는 경우, 관련 사이트를 함께 추가 권장
AI 콘텐츠 농장 식별 기준
- 불필요한 서론과 결론, ‘Comprehensive Guide’ 등 과장된 제목, 외부 링크·출처 부재, 추천 링크 다수
- 짧은 기간 내 수천 개 게시물, 잘못된 정보(환각), 2022년 11월 이후 게시물, AI 생성 이미지·로고
- 서식이 엉성한 텍스트, 렌더링되지 않은 Markdown 문법, 주제와 무관한 장문, 검색 상위 반복 노출
- 연락처 부재, 모호한 소개 페이지, AI 찬양적 콘텐츠 등도 주요 특징으로 제시
Google Dorks 활용
- AI가 생성한 문장을 그대로 복사해 게시하는 경우, 특정 문구 검색으로 AI 페이지 탐색 가능
- 예시:
"Sure! Here's an article about"(영어),"Certo! Ecco un articolo"(이탈리아어)
- 예시:
- 이러한 문구를 포함한 페이지는 도메인 전체를 블랙리스트에 추가
유사 프로젝트
- uBlockOrigin & uBlacklist Huge AI Blocklist 프로젝트는 모든 AI 관련 결과를 숨김
- 본 프로젝트는 정상적인 AI 도구는 유지하고, 오직 AI 콘텐츠 농장만 차단하는 점에서 차별화됨
Hacker News 의견들
-
이 아이디어는 흥미로웠고 나도 목록에 기여하려 했지만, FAQ의 “Cry about it” 문구를 보고 멈췄음
이런 태도는 공개 블랙리스트를 운영하는 방식으로는 부적절하다고 생각함. 유지자가 자신이 무오류라고 믿는 듯한 인상임- 내 개인 웹사이트도 비슷한 일을 겪었음. 친구들이 접속이 안 된다고 해서 서버 문제인 줄 알았는데, PiHole의 어떤 블록리스트에 내 사이트가 포함되어 있었음
해제 요청을 했지만 아무 답변도 받지 못했고, 아직도 차단된 상태임 - 이런 항의가 마치 VAC 밴 해제 요청처럼 신뢰하기 어렵다고 보는 사람도 있음
- 이런 태도라면 이 프로젝트가 5년 뒤에도 유지될 가능성은 낮다고 봄. 이런 건 Easylist 같은 검증된 팀이 맡아야 함
- “개인용 uBlock Origin 리스트”라는 점을 잊지 말라는 의견도 있었음
- 하지만 지금은 수정된 듯함. 관련 커밋은 여기에서 확인 가능함
- 내 개인 웹사이트도 비슷한 일을 겪었음. 친구들이 접속이 안 된다고 해서 서버 문제인 줄 알았는데, PiHole의 어떤 블록리스트에 내 사이트가 포함되어 있었음
-
좀 더 현실적인 접근으로, 콘텐츠 팜이나 저품질 사이트만 차단하는 새로운 리스트가 등장했음
기존의 광범위한 AI 차단 리스트보다 나은 대안으로 보임
uBlockOrigin-HUGE-AI-Blocklist 참고
Reddit에서도 관련 토론이 활발함- 기존 리스트는 단순히 혐오 리스트에 가깝다고 느낌. AI 콘텐츠를 공개적으로 운영하는 사이트까지 포함되어 있음
- 웹사이트 목록이 스프레드시트로 정리되어 있다니 흥미로움. 예전에 SEO로 도배된 미디어 그룹 사례를 보고, 비슷한 사이트를 찾아 uBlacklist에 추가했음
내 gist에 검색 과정과 목록을 공유함 - 다만 이 리스트는 5개월째 업데이트가 없음
- 두 리스트 모두 추가했다는 사람도 있었음
-
시간이 지날수록 오탐지 문제가 심각해짐. 도메인이 팔리거나, 사이트가 방향을 바꾸거나, 콘텐츠가 삭제되기도 함
“Cry about it” 같은 태도로는 명예 훼손 블랙홀이 될 뿐임. 최소한 만료나 재검토 메커니즘이 필요함 -
Ublock Origin에는 이미 “AI widget” 차단 리스트가 있음. 이 기능 덕분에 아직도 Firefox를 쓰고 있음. Chromium에서는 쓸모가 없음
-
원칙에는 동의하지만, “AI로 글 쓰는 건 실력 문제”라는 식의 태도는 Grammarly 사용자나 비영어권 사용자에게 불공평함
- “Skill issue”라 불린 집단이 불만을 안 가진 적은 없었음
- 나는 오히려 AI 생성 텍스트보다 서툰 영어 문장이나 번역투 글이 더 인간적이고 다양하게 느껴짐
어쨌든 이 프로젝트는 개인 작가가 아니라 콘텐츠 팜을 겨냥한 것이므로 논점이 다름 - 하지만 이 작성자는 도메인 소유권이 바뀌어도 리스트에서 제거하지 않음. 예를 들어 Whitehouse.com은 예전엔 포르노 사이트였지만 지금은 아님
- 영어를 잘 모르면 그냥 기계 번역기를 쓰라는 의견도 있었음
- 나는 업무상 Grammarly를 쓰는데, 브랜드 가이드라인을 지키는 용도임. AI스러운 문체로 바꾸지는 않음.
작성자는 AI 봇 팜을 겨냥한 듯함
-
그래도 아직 인터넷에 화이트리스트가 생기지는 않았음
- 앱 중심 시대가 끝나면서 그 위기는 지나감
-
글이 AI로 작성됐는지 tropes 기반으로 판별하고 원래 프롬프트를 복원하는 도구를 쓰고 있음
tropes.fyi/aidr -
이런 방향성은 좋음. 더 다양한 사이트 카테고리별 차단이 가능했으면 함
기업 환경에서는 URL 평판 서비스를 통해 사이트를 분류하고 접근을 제어함
개인 사용자도 이런 크라우드 펀딩 기반 인프라가 필요하다고 생각함
예를 들어 브라우저, VPN, DNS, 이메일, 인증기관 등 신뢰 가능한 생태계를 위해 연간 10억 달러 규모의 비영리 펀드가 있다면 좋겠음 -
botblock.ai처럼 트위터에서 AI 답변을 탐지하는 확장도 있음
- 하지만 “그냥 트위터를 안 쓰는 게 낫다”는 반응도 있었음
- 실제로는 잘 작동하지 않는 듯함. 예를 들어 명백한 AI 계정을 100% 인간으로 판정함
증거 이미지 - 트위터는 이미 유료 계정이 상단에 노출되면서 $8 광고 플랫폼이 되어버렸음
-
나는 광고가 너무 많으면 그냥 사이트를 닫는 편임. 광고 구성이 합리적이면 그대로 이용함
애드블록 전쟁에 지쳤음. 매번 새로운 플러그인 이름이 등장해서 끝없는 경쟁처럼 느껴짐- 문제는 광고가 종종 악성코드 유입 경로가 된다는 점임