AI uBlock 블랙리스트

(github.com/alvi-se)

6P by GN⁺ 4달전 | ★ favorite | 댓글 1개

uBlock Origin에서 AI가 생성한 콘텐츠 공장 사이트를 차단하기 위한 공개 블랙리스트 프로젝트
생성형 AI가 작성한 웹사이트는 광고와 추천 링크로 채워져 있으며 신뢰할 수 없는 정보를 포함하는 경우가 많음
사용자는 list.txt 파일을 구독하거나 직접 URL을 추가해 차단 목록을 적용할 수 있음
AI 생성 사이트의 특징과 식별 기준이 구체적으로 제시되어 있으며, 기여자들의 Pull Request를 통해 목록 확장이 가능함
검색 결과 상위에 노출되는 AI 콘텐츠 오염 문제를 줄이기 위한 실용적 도구로 활용 가능함

프로젝트 개요

AI uBlock Blacklist는 uBlock Origin 확장 프로그램에서 사용할 수 있는 AI 생성 콘텐츠 차단 리스트 제공
- 사용자는 Adblock Plus 구독 링크를 클릭하거나 https://raw.githubusercontent.com/alvi-se/ai-ublock-blacklist/…를 직접 추가 가능
생성형 AI가 작성한 웹사이트를 탐색 중 발견할 때마다 수동으로 목록에 추가
자동화 도구는 사용하지 않으며, AI 생성 여부를 알고리듬으로 판별하기 어렵기 때문이라고 명시

프로젝트 목적

생성형 AI가 작성한 웹사이트는 유용한 정보가 부족하고 광고·추천 링크로 수익을 노리는 구조
AI가 작성한 콘텐츠는 검수 없이 대량 게시되어 위험한 정보를 포함할 수 있음
- 예시로 회로 단락, rm -rf / 명령 실행, 표백제와 암모니아 혼합 등 위험한 조언을 제시할 가능성 언급
이러한 이유로 AI 생성 콘텐츠는 신뢰할 수 없으며 차단이 필요함
작성자는 이탈리아 국적이라 이탈리아어 사이트가 다수 포함되어 있으며, 다른 언어 사이트 추가를 위한 기여를 환영

웹사이트 추가 방법

기술 지식이 없는 사용자는 GitHub Issue를 통해 의심 사이트를 신고 가능
Pull Request를 통해 직접 추가할 경우, 도메인 단위 또는 특정 블로그 경로 단위로 차단 가능
- 예: ||example.com/@slopUser^$doc 또는 ||example.com^$doc 형식
SEO 및 디지털 마케팅 서비스를 판매하는 조직이 여러 콘텐츠 농장을 운영하는 경우, 관련 사이트를 함께 추가 권장

AI 콘텐츠 농장 식별 기준

불필요한 서론과 결론, ‘Comprehensive Guide’ 등 과장된 제목, 외부 링크·출처 부재, 추천 링크 다수
짧은 기간 내 수천 개 게시물, 잘못된 정보(환각), 2022년 11월 이후 게시물, AI 생성 이미지·로고
서식이 엉성한 텍스트, 렌더링되지 않은 Markdown 문법, 주제와 무관한 장문, 검색 상위 반복 노출
연락처 부재, 모호한 소개 페이지, AI 찬양적 콘텐츠 등도 주요 특징으로 제시

Google Dorks 활용

AI가 생성한 문장을 그대로 복사해 게시하는 경우, 특정 문구 검색으로 AI 페이지 탐색 가능
- 예시: "Sure! Here's an article about" (영어), "Certo! Ecco un articolo" (이탈리아어)
이러한 문구를 포함한 페이지는 도메인 전체를 블랙리스트에 추가

유사 프로젝트

uBlockOrigin & uBlacklist Huge AI Blocklist 프로젝트는 모든 AI 관련 결과를 숨김
본 프로젝트는 정상적인 AI 도구는 유지하고, 오직 AI 콘텐츠 농장만 차단하는 점에서 차별화

GN⁺ 4달전 [-]

Hacker News 의견들

이 아이디어는 흥미로웠고 나도 목록에 기여하려 했지만, FAQ의 “Cry about it” 문구를 보고 멈췄음
이런 태도는 공개 블랙리스트를 운영하는 방식으로는 부적절하다고 생각함. 유지자가 자신이 무오류라고 믿는 듯한 인상임
- 내 개인 웹사이트도 비슷한 일을 겪었음. 친구들이 접속이 안 된다고 해서 서버 문제인 줄 알았는데, PiHole의 어떤 블록리스트에 내 사이트가 포함되어 있었음
  해제 요청을 했지만 아무 답변도 받지 못했고, 아직도 차단된 상태임
- 이런 항의가 마치 VAC 밴 해제 요청처럼 신뢰하기 어렵다고 보는 사람도 있음
- 이런 태도라면 이 프로젝트가 5년 뒤에도 유지될 가능성은 낮다고 봄. 이런 건 Easylist 같은 검증된 팀이 맡아야 함
- “개인용 uBlock Origin 리스트”라는 점을 잊지 말라는 의견도 있었음
- 하지만 지금은 수정된 듯함. 관련 커밋은 여기에서 확인 가능함
좀 더 현실적인 접근으로, 콘텐츠 팜이나 저품질 사이트만 차단하는 새로운 리스트가 등장했음
기존의 광범위한 AI 차단 리스트보다 나은 대안으로 보임
uBlockOrigin-HUGE-AI-Blocklist 참고
Reddit에서도 관련 토론이 활발함
- 기존 리스트는 단순히 혐오 리스트에 가깝다고 느낌. AI 콘텐츠를 공개적으로 운영하는 사이트까지 포함되어 있음
- 웹사이트 목록이 스프레드시트로 정리되어 있다니 흥미로움. 예전에 SEO로 도배된 미디어 그룹 사례를 보고, 비슷한 사이트를 찾아 uBlacklist에 추가했음
  내 gist에 검색 과정과 목록을 공유함
- 다만 이 리스트는 5개월째 업데이트가 없음
- 두 리스트 모두 추가했다는 사람도 있었음
시간이 지날수록 오탐지 문제가 심각해짐. 도메인이 팔리거나, 사이트가 방향을 바꾸거나, 콘텐츠가 삭제되기도 함
“Cry about it” 같은 태도로는 명예 훼손 블랙홀이 될 뿐임. 최소한 만료나 재검토 메커니즘이 필요함
Ublock Origin에는 이미 “AI widget” 차단 리스트가 있음. 이 기능 덕분에 아직도 Firefox를 쓰고 있음. Chromium에서는 쓸모가 없음
원칙에는 동의하지만, “AI로 글 쓰는 건 실력 문제”라는 식의 태도는 Grammarly 사용자나 비영어권 사용자에게 불공평함
- “Skill issue”라 불린 집단이 불만을 안 가진 적은 없었음
- 나는 오히려 AI 생성 텍스트보다 서툰 영어 문장이나 번역투 글이 더 인간적이고 다양하게 느껴짐
  어쨌든 이 프로젝트는 개인 작가가 아니라 콘텐츠 팜을 겨냥한 것이므로 논점이 다름
- 하지만 이 작성자는 도메인 소유권이 바뀌어도 리스트에서 제거하지 않음. 예를 들어 Whitehouse.com은 예전엔 포르노 사이트였지만 지금은 아님
- 영어를 잘 모르면 그냥 기계 번역기를 쓰라는 의견도 있었음
- 나는 업무상 Grammarly를 쓰는데, 브랜드 가이드라인을 지키는 용도임. AI스러운 문체로 바꾸지는 않음.
  작성자는 AI 봇 팜을 겨냥한 듯함
그래도 아직 인터넷에 화이트리스트가 생기지는 않았음
- 앱 중심 시대가 끝나면서 그 위기는 지나감
글이 AI로 작성됐는지 tropes 기반으로 판별하고 원래 프롬프트를 복원하는 도구를 쓰고 있음
tropes.fyi/aidr
- 재밌는 아이디어라며 예시 링크, 다른 예시를 공유한 사람도 있었음
이런 방향성은 좋음. 더 다양한 사이트 카테고리별 차단이 가능했으면 함
기업 환경에서는 URL 평판 서비스를 통해 사이트를 분류하고 접근을 제어함
개인 사용자도 이런 크라우드 펀딩 기반 인프라가 필요하다고 생각함
예를 들어 브라우저, VPN, DNS, 이메일, 인증기관 등 신뢰 가능한 생태계를 위해 연간 10억 달러 규모의 비영리 펀드가 있다면 좋겠음
botblock.ai처럼 트위터에서 AI 답변을 탐지하는 확장도 있음
- 하지만 “그냥 트위터를 안 쓰는 게 낫다”는 반응도 있었음
- 실제로는 잘 작동하지 않는 듯함. 예를 들어 명백한 AI 계정을 100% 인간으로 판정함
  증거 이미지
- 트위터는 이미 유료 계정이 상단에 노출되면서 $8 광고 플랫폼이 되어버렸음
나는 광고가 너무 많으면 그냥 사이트를 닫는 편임. 광고 구성이 합리적이면 그대로 이용함
애드블록 전쟁에 지쳤음. 매번 새로운 플러그인 이름이 등장해서 끝없는 경쟁처럼 느껴짐
- 문제는 광고가 종종 악성코드 유입 경로가 된다는 점임

답변달기

AI uBlock 블랙리스트

프로젝트 개요

프로젝트 목적

웹사이트 추가 방법

AI 콘텐츠 농장 식별 기준

Google Dorks 활용

유사 프로젝트

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들