14P by GN⁺ 1일전 | ★ favorite | 댓글 1개
  • AI 생성물 오염을 피하기 위해 만들어진 브라우저 확장 프로그램으로, 인간이 작성한 콘텐츠만 검색하도록 설계됨
  • Google 검색 API를 이용해 2022년 11월 30일 이전에 게시된 결과만 반환함
  • ChromeFirefox에서 다운로드 및 사용 가능
  • ChatGPT와 다른 대형 언어 모델의 등장 이후 인터넷에 AI 생성 텍스트·이미지·영상이 급증한 상황을 전제로 함
  • 인간이 만든 자료에만 접근하려는 사용자에게 신뢰 가능한 검색 환경을 제공함

Slop Evader 개요

  • Slop Evader는 AI 생성물 회피용 브라우저 확장 프로그램으로, Chrome과 Firefox에서 사용 가능
    • 사용자는 확장 프로그램을 설치해 AI가 만든 콘텐츠를 걸러낼 수 있음
  • 이 도구는 ChatGPT 공개 이전(2022년 11월 30일) 에 생성된 콘텐츠만 검색 결과로 표시함
    • Google 검색 API를 활용해 날짜 기준으로 결과를 제한함

개발 배경

  • ChatGPT와 기타 대형 언어 모델(LLM) 의 공개 이후, 인터넷에는 AI가 만든 텍스트·이미지·영상이 급격히 증가함
  • Slop Evader는 이러한 AI 생성물로 인한 온라인 정보 오염을 피하기 위한 목적에서 제작됨
  • 사용자는 이 확장 프로그램을 통해 인간이 직접 작성하거나 제작한 콘텐츠만 탐색 가능함

기능과 의의

  • 검색 결과를 2022년 11월 30일 이전 게시물로 한정함으로써, AI 생성물의 영향을 최소화함
  • Google 검색 API를 기반으로 작동해 기존 검색 환경과 유사한 사용 경험을 유지함
  • AI 콘텐츠 확산 속에서 인간 중심의 정보 접근성을 보장하는 도구로 기능함
Hacker News 의견
  • ChatGPT 공개 이전(2022년 11월 30일)까지의 콘텐츠만 검색하는 도구라 함
    하지만 검색 품질 저하는 그보다 훨씬 전부터 시작된 것 같음
    Google뿐 아니라 모든 검색엔진이 이미 나빠지고 있었고, 이후 AI가 그 하락세를 가속시켰음
    특히 YouTube 검색 UI를 Google 검색에 억지로 이식한 게 문제였음
    사용자가 원하는 건 “다른 사람들이 검색한 xyz”가 아니라 정확한 결과인데, 광고와 클릭 유도 요소로 UI 혼란만 커졌음

    • Kagi라는 검색엔진을 알고 있는지 묻고 싶음
      여기서는 AI 기능을 완전히 끌 수 있음
      현재 회원은 약 6만 1천 명, 월 2천 명씩 증가 중임 (통계 링크)
    • 사실 자동 생성 콘텐츠는 ChatGPT 이전부터 존재했음
      2020년쯤엔 이미 스크랩된 콘텐츠나 키워드 스팸으로 채워진 SEO 페이지가 많았음
      단순한 언어모델이나 마르코프 체인으로 만든 글도 많았음
    • “Google made the search results worse”라는 문장을 패러디하며
      “worse results near me”, “best worse results” 같은 자동완성 농담을 던짐
    • Google의 목적이 사용자가 정보를 찾는 게 아니라 체류 시간 증가라는 점을 지적함
      기업식 표현으로 사람들의 삶을 불편하게 만드는 걸 포장한다고 비꼼
    • 나는 10년 넘게 DuckDuckGo를 써왔음
      주로 프로그래밍 관련 문서 검색용으로 쓰는데 여전히 결과가 꽤 정확함
      내 검색 패턴이 단순해서일 수도 있지만, DDG는 여전히 쓸 만함
  • 누군가 “우리는 제2차 세계대전 이후의 저방사능 강철(low-background steel) 처럼 ‘저배경 토큰’을 채굴하고 있다”고 말했는데, 그 비유가 머릿속에서 떠나질 않음
    관련 글을 Latent Space에 정리했음
    인간이 만든 토큰이 AI가 만든 것보다 정말 더 ‘고신호’인지 확신은 없음

    • 실제로는 저방사능 강철이 더 이상 필요하지 않음
      위키피디아 설명에 따르면 1963년 부분 핵실험금지조약 이후 방사능 수준이 충분히 낮아졌기 때문임
    • 요즘은 합성 데이터가 워낙 흔해서 이런 개념이 새롭지도 않음
    • “그 말 한 사람은 나, swyx였음”이라고 밝힘
    • 인간 세대는 항상 이전 세대의 불완전한 유산 위에 쌓아왔음
      우리는 그것을 “거인의 어깨 위에 서기”라고 불렀음
  • 이런 프로젝트를 보면 Cyberpunk 2077의 설정이 떠오름
    첫 번째 인터넷이 위험한 AI들로 오염되어 거대한 방화벽을 세우고, 인간 중심의 새 인터넷을 만든다는 이야기였음
    언젠가 인간 전용 인터넷이 필요해질지도 모른다는 생각이 듦
    물론 현실적으론 어려운 일이고, 인간임을 지속적으로 인증해야 하는 meatspace-first 네트워크 같은 개념을 상상해봄

    • 문제는 콘텐츠가 진짜 인간의 생각에서 나온 것인지 검증 불가능하다는 점임
      대부분의 콘텐츠가 이미 AI의 영향을 받았고, 단순히 참고하는 수준과 복붙 사기는 다름
    • Nick Bostrom의 말처럼, 한 번 세상에 나온 문명 교란 기술은 되돌릴 수 없음
      결국 적응해야 함
      Mastodon이나 Discord, Matrix 같은 자율 네트워크가 그 방향의 예시라고 생각함
    • 이미 사람들은 Signal, WhatsApp, Telegram 같은 비공개 그룹으로 이동 중임
    • Peter Watts의 Starfish 3부작이나 Neal Stephenson의 Anathem에서도 비슷한 설정이 나왔음
    • “인간 전용 인터넷”이라 해도, 인간이 AI의 영향을 받는다면 의미가 없을 것임
  • ChatGPT 이전의 em-dash(—) 사용량 순위를 보여주는 HN 리더보드가 있음
    링크

    • double hyphen(--) 을 쓰는 사람들도 포함해야 한다고 제안함
    • 1위 사용자의 댓글을 보니 백틱(’) 을 아포스트로피 대신 쓰는 습관도 있었음
    • “en dash(–)” 사용자도 좀 챙겨줘야 한다며 농담함
  • 이런 기능은 확장 프로그램 없이도 가능함
    Google 검색에 before: 필터를 추가하면 됨
    예: Happiness before:2022

  • AI 생성 콘텐츠가 그렇게 큰 문제인지 모르겠음
    대부분은 원래 콘텐츠 팜 SEO 스팸을 대체한 것뿐임
    예전에도 그런 글은 안 읽었고, 지금은 문장만 좀 더 매끄러워졌을 뿐임
    검색 위생만 잘 지키면 문제없다고 생각함
    다만 Reddit의 r/chess에서는 사람들이 ChatGPT 답변을 자신이 쓴 것처럼 올리는 경우가 많음

    • 동료가 ChatGPT로 작성한 버그 리포트를 보냈는데, 버그를 완전히 잘못 짚었음
      그 후 대화도 ChatGPT로 이어가며 내가 틀렸다고 주장했음
      이런 미래가 불안함
    • 예전엔 틀린 답변이 한두 개뿐이라 쉽게 걸러졌는데,
      지금은 형식만 다른 동일한 오답이 수십 개씩 있음
    • 과학·기술 관련 서브레딧에도 ChatGPT 재게시물이 넘침
      사람들은 자신이 철학적 돌파구를 발견했다고 착각하고 글을 올림
      /r/localllama 같은 곳도 AI 스팸이 많고, HN의 일부 “Show HN”도 LLM이 만든 가짜 포트폴리오
      나도 그런 글에 시간 낭비한 적이 있음
    • 예전의 SEO 스팸은 그래도 사실 기반이었음
      요리 레시피 사이트처럼 불필요한 부분을 건너뛸 수 있었음
      하지만 지금은 거의 모든 검색어가 AI 생성 문장으로 덮여 있음
      예전엔 희귀한 검색어로 정확한 결과를 얻었지만, 이제는 의미 없는 페이지들을 헤쳐 나가야 함
    • 반론으로, 예전엔 좋은 글을 쓰면 검색엔진이 알아서 찾아줬는데
      이제는 그 인간의 글이 LLM 학습 데이터로 흡수되어 다음 세대의 AI 콘텐츠로 재활용됨
      원치 않아도 그렇게 됨
  • “인터넷의 저방사능 강철”이라는 표현이 흥미로움
    관련 위키 링크

  • ChatGPT로 리서치하다가 겪은 일임

    • 잘못된 답변을 자신 있게 환각(hallucination)
    • 그 내용을 메모리에 저장해 계속 유지함
    • 출처를 물으니 AI가 만든 두 개의 가짜 기사로 자기 자신을 인용
      결국 원 출처인 기관의 인간 작성 문서를 찾아 해결했음
      이런 일이 지식의 경계 영역에서 자주 발생함
    • AI는 Stack Overflow 답변을 뒤지는 느낌임
      첫 번째 답이 맞을 수도, 아닐 수도 있음
      하지만 챗봇은 잘못된 방향에서 벗어나기가 어려움
    • 간단한 해결책은 서로 다른 LLM 3개로 같은 질문을 던져보고
      결과가 일치하면 환각 가능성이 낮다고 판단하는 것임
  • 이미지 검색에는 same.energy가 괜찮음
    몇 년째 방치됐지만 여전히 작동하고, AI 이미지가 거의 없음
    제품 자체도 꽤 훌륭함

  • Google 검색 결과는 ChatGPT 이전부터 이미 90%가 SEO 쓰레기였음
    그냥 Kagi를 쓰고 SEO 사이트를 차단하면 됨

    • 그런데 Kagi는 어떻게 SEO 사이트를 구분하는지 궁금함
      필터 리스트나 판별 기준이 있는지 묻고 싶음