# ChatGPT 공개 이전에 생성된 콘텐츠만 검색하는 도구

> Clean Markdown view of GeekNews topic #24766. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24766](https://news.hada.io/topic?id=24766)
- GeekNews Markdown: [https://news.hada.io/topic/24766.md](https://news.hada.io/topic/24766.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-12-02T10:35:54+09:00
- Updated: 2025-12-02T10:35:54+09:00
- Original source: [tegabrain.com](https://tegabrain.com/Slop-Evader)
- Points: 16
- Comments: 1

## Summary

AI가 만든 텍스트와 이미지가 넘쳐나는 지금, 인터넷의 ‘순수한’ 정보는 점점 찾기 어려워지고 있습니다. **Slop Evader**는 이런 흐름 속에서 등장한 브라우저 확장 프로그램으로, Google 검색 API를 이용해 *ChatGPT 공개 이전(2022년 11월 30일)* 에 작성된 결과만 보여줍니다. Chrome과 Firefox에서 바로 설치해 사용할 수 있으며, 기존 검색 흐름을 그대로 유지하면서도, AI 시대의 정보 오염을 피하려는 개발자와 연구자에게 흥미로운 실험적 도구가 될 듯합니다.

## Topic Body

- **AI 생성물 오염**을 피하기 위해 만들어진 브라우저 확장 프로그램으로, 인간이 작성한 콘텐츠만 검색하도록 설계됨  
- **Google 검색 API**를 이용해 2022년 11월 30일 이전에 게시된 결과만 반환함  
- **Chrome**과 **Firefox**에서 다운로드 및 사용 가능  
- ChatGPT와 다른 대형 언어 모델의 등장 이후 인터넷에 **AI 생성 텍스트·이미지·영상**이 급증한 상황을 전제로 함  
- 인간이 만든 자료에만 접근하려는 사용자에게 **신뢰 가능한 검색 환경**을 제공함  

---
### Slop Evader 개요
- Slop Evader는 **AI 생성물 회피용 브라우저 확장 프로그램**으로, Chrome과 Firefox에서 사용 가능  
  - 사용자는 확장 프로그램을 설치해 AI가 만든 콘텐츠를 걸러낼 수 있음  
- 이 도구는 **ChatGPT 공개 이전(2022년 11월 30일)** 에 생성된 콘텐츠만 검색 결과로 표시함  
  - Google 검색 API를 활용해 날짜 기준으로 결과를 제한함  

### 개발 배경
- ChatGPT와 기타 **대형 언어 모델(LLM)** 의 공개 이후, 인터넷에는 AI가 만든 텍스트·이미지·영상이 급격히 증가함  
- Slop Evader는 이러한 **AI 생성물로 인한 온라인 정보 오염**을 피하기 위한 목적에서 제작됨  
- 사용자는 이 확장 프로그램을 통해 **인간이 직접 작성하거나 제작한 콘텐츠**만 탐색 가능함  

### 기능과 의의
- 검색 결과를 **2022년 11월 30일 이전 게시물로 한정**함으로써, AI 생성물의 영향을 최소화함  
- **Google 검색 API**를 기반으로 작동해 기존 검색 환경과 유사한 사용 경험을 유지함  
- AI 콘텐츠 확산 속에서 **인간 중심의 정보 접근성**을 보장하는 도구로 기능함

## Comments


### Comment 47064

- Author: neo
- Created: 2025-12-02T10:36:54+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=46103376) 
- ChatGPT 공개 이전(2022년 11월 30일)까지의 콘텐츠만 검색하는 도구라 함  
  하지만 **검색 품질 저하**는 그보다 훨씬 전부터 시작된 것 같음  
  Google뿐 아니라 모든 검색엔진이 이미 나빠지고 있었고, 이후 AI가 그 하락세를 가속시켰음  
  특히 YouTube 검색 UI를 Google 검색에 억지로 이식한 게 문제였음  
  사용자가 원하는 건 “다른 사람들이 검색한 xyz”가 아니라 정확한 결과인데, 광고와 클릭 유도 요소로 **UI 혼란**만 커졌음
  - [Kagi](https://kagi.com)라는 검색엔진을 알고 있는지 묻고 싶음  
    여기서는 AI 기능을 **완전히 끌 수 있음**  
    현재 회원은 약 6만 1천 명, 월 2천 명씩 증가 중임 ([통계 링크](https://kagi.com/stats))
  - 사실 자동 생성 콘텐츠는 ChatGPT 이전부터 존재했음  
    2020년쯤엔 이미 **스크랩된 콘텐츠나 키워드 스팸**으로 채워진 SEO 페이지가 많았음  
    단순한 언어모델이나 마르코프 체인으로 만든 글도 많았음
  - “Google made the search results worse”라는 문장을 패러디하며  
    “worse results near me”, “best worse results” 같은 **자동완성 농담**을 던짐
  - Google의 목적이 사용자가 정보를 찾는 게 아니라 **체류 시간 증가**라는 점을 지적함  
    기업식 표현으로 사람들의 삶을 불편하게 만드는 걸 포장한다고 비꼼
  - 나는 10년 넘게 **DuckDuckGo**를 써왔음  
    주로 프로그래밍 관련 문서 검색용으로 쓰는데 여전히 결과가 꽤 정확함  
    내 검색 패턴이 단순해서일 수도 있지만, DDG는 여전히 쓸 만함

- 누군가 “우리는 제2차 세계대전 이후의 **저방사능 강철(low-background steel)** 처럼 ‘저배경 토큰’을 채굴하고 있다”고 말했는데, 그 비유가 머릿속에서 떠나질 않음  
  관련 글을 [Latent Space](https://www.latent.space/i/139368545/the-concept-of-low-background-tokens)에 정리했음  
  인간이 만든 토큰이 AI가 만든 것보다 정말 더 ‘고신호’인지 확신은 없음
  - 실제로는 저방사능 강철이 더 이상 필요하지 않음  
    [위키피디아 설명](https://en.wikipedia.org/wiki/Low-background_steel)에 따르면 1963년 부분 핵실험금지조약 이후 방사능 수준이 충분히 낮아졌기 때문임
  - 요즘은 **합성 데이터**가 워낙 흔해서 이런 개념이 새롭지도 않음
  - “그 말 한 사람은 나, swyx였음”이라고 밝힘
  - 인간 세대는 항상 이전 세대의 **불완전한 유산** 위에 쌓아왔음  
    우리는 그것을 “거인의 어깨 위에 서기”라고 불렀음

- 이런 프로젝트를 보면 **Cyberpunk 2077**의 설정이 떠오름  
  첫 번째 인터넷이 위험한 AI들로 오염되어 거대한 방화벽을 세우고, 인간 중심의 새 인터넷을 만든다는 이야기였음  
  언젠가 **인간 전용 인터넷**이 필요해질지도 모른다는 생각이 듦  
  물론 현실적으론 어려운 일이고, 인간임을 지속적으로 인증해야 하는 **meatspace-first 네트워크** 같은 개념을 상상해봄
  - 문제는 콘텐츠가 진짜 인간의 생각에서 나온 것인지 **검증 불가능**하다는 점임  
    대부분의 콘텐츠가 이미 AI의 영향을 받았고, 단순히 참고하는 수준과 **복붙 사기**는 다름
  - Nick Bostrom의 말처럼, 한 번 세상에 나온 **문명 교란 기술**은 되돌릴 수 없음  
    결국 적응해야 함  
    Mastodon이나 Discord, Matrix 같은 **자율 네트워크**가 그 방향의 예시라고 생각함
  - 이미 사람들은 Signal, WhatsApp, Telegram 같은 **비공개 그룹**으로 이동 중임
  - Peter Watts의 *Starfish* 3부작이나 Neal Stephenson의 *Anathem*에서도 비슷한 설정이 나왔음
  - “인간 전용 인터넷”이라 해도, 인간이 AI의 영향을 받는다면 의미가 없을 것임

- ChatGPT 이전의 **em-dash(—)** 사용량 순위를 보여주는 HN 리더보드가 있음  
  [링크](https://www.gally.net/miscellaneous/hn-em-dash-user-leaderboard-v2.html)
  - **double hyphen(--)** 을 쓰는 사람들도 포함해야 한다고 제안함
  - 1위 사용자의 댓글을 보니 **백틱(’)** 을 아포스트로피 대신 쓰는 습관도 있었음
  - “en dash(–)” 사용자도 좀 챙겨줘야 한다며 농담함

- 이런 기능은 확장 프로그램 없이도 가능함  
  Google 검색에 `before:` 필터를 추가하면 됨  
  예: [Happiness before:2022](https://www.google.com/search?q=Happiness+before%3A2022)

- AI 생성 콘텐츠가 그렇게 큰 문제인지 모르겠음  
  대부분은 원래 **콘텐츠 팜 SEO 스팸**을 대체한 것뿐임  
  예전에도 그런 글은 안 읽었고, 지금은 문장만 좀 더 매끄러워졌을 뿐임  
  검색 위생만 잘 지키면 문제없다고 생각함  
  다만 Reddit의 r/chess에서는 사람들이 ChatGPT 답변을 **자신이 쓴 것처럼 올리는** 경우가 많음
  - 동료가 ChatGPT로 작성한 **버그 리포트**를 보냈는데, 버그를 완전히 잘못 짚었음  
    그 후 대화도 ChatGPT로 이어가며 내가 틀렸다고 주장했음  
    이런 미래가 불안함
  - 예전엔 틀린 답변이 한두 개뿐이라 쉽게 걸러졌는데,  
    지금은 **형식만 다른 동일한 오답**이 수십 개씩 있음
  - 과학·기술 관련 서브레딧에도 ChatGPT 재게시물이 넘침  
    사람들은 자신이 **철학적 돌파구**를 발견했다고 착각하고 글을 올림  
    /r/localllama 같은 곳도 AI 스팸이 많고, HN의 일부 “Show HN”도 **LLM이 만든 가짜 포트폴리오**임  
    나도 그런 글에 시간 낭비한 적이 있음
  - 예전의 SEO 스팸은 그래도 **사실 기반**이었음  
    요리 레시피 사이트처럼 불필요한 부분을 건너뛸 수 있었음  
    하지만 지금은 거의 모든 검색어가 AI 생성 문장으로 덮여 있음  
    예전엔 희귀한 검색어로 정확한 결과를 얻었지만, 이제는 **의미 없는 페이지들**을 헤쳐 나가야 함
  - 반론으로, 예전엔 좋은 글을 쓰면 검색엔진이 알아서 찾아줬는데  
    이제는 그 **인간의 글이 LLM 학습 데이터로 흡수**되어 다음 세대의 AI 콘텐츠로 재활용됨  
    원치 않아도 그렇게 됨

- “인터넷의 저방사능 강철”이라는 표현이 흥미로움  
  [관련 위키 링크](https://en.wikipedia.org/wiki/Low-background_steel)
  - 반년 전에도 같은 주제가 [HN에서 언급됨](https://news.ycombinator.com/item?id=44239481)

- ChatGPT로 리서치하다가 겪은 일임  
  * 잘못된 답변을 **자신 있게 환각(hallucination)** 함  
  * 그 내용을 메모리에 저장해 계속 유지함  
  * 출처를 물으니 AI가 만든 두 개의 가짜 기사로 **자기 자신을 인용**함  
  결국 원 출처인 기관의 인간 작성 문서를 찾아 해결했음  
  이런 일이 **지식의 경계 영역**에서 자주 발생함
  - AI는 Stack Overflow 답변을 뒤지는 느낌임  
    첫 번째 답이 맞을 수도, 아닐 수도 있음  
    하지만 챗봇은 잘못된 방향에서 벗어나기가 어려움
  - 간단한 해결책은 **서로 다른 LLM 3개**로 같은 질문을 던져보고  
    결과가 일치하면 환각 가능성이 낮다고 판단하는 것임

- 이미지 검색에는 [same.energy](https://same.energy)가 괜찮음  
  몇 년째 방치됐지만 여전히 작동하고, **AI 이미지가 거의 없음**  
  제품 자체도 꽤 훌륭함

- Google 검색 결과는 ChatGPT 이전부터 이미 **90%가 SEO 쓰레기**였음  
  그냥 Kagi를 쓰고 SEO 사이트를 차단하면 됨
  - 그런데 Kagi는 어떻게 **SEO 사이트를 구분**하는지 궁금함  
    필터 리스트나 판별 기준이 있는지 묻고 싶음