ChatGPT 공개 이전에 생성된 콘텐츠만 검색하는 도구

(tegabrain.com)

16P by GN⁺ 3달전 | ★ favorite | 댓글 1개

AI 생성물 오염을 피하기 위해 만들어진 브라우저 확장 프로그램으로, 인간이 작성한 콘텐츠만 검색하도록 설계됨
Google 검색 API를 이용해 2022년 11월 30일 이전에 게시된 결과만 반환함
Chrome과 Firefox에서 다운로드 및 사용 가능
ChatGPT와 다른 대형 언어 모델의 등장 이후 인터넷에 AI 생성 텍스트·이미지·영상이 급증한 상황을 전제로 함
인간이 만든 자료에만 접근하려는 사용자에게 신뢰 가능한 검색 환경을 제공함

Slop Evader 개요

Slop Evader는 AI 생성물 회피용 브라우저 확장 프로그램으로, Chrome과 Firefox에서 사용 가능
- 사용자는 확장 프로그램을 설치해 AI가 만든 콘텐츠를 걸러낼 수 있음
이 도구는 ChatGPT 공개 이전(2022년 11월 30일) 에 생성된 콘텐츠만 검색 결과로 표시함
- Google 검색 API를 활용해 날짜 기준으로 결과를 제한함

개발 배경

ChatGPT와 기타 대형 언어 모델(LLM) 의 공개 이후, 인터넷에는 AI가 만든 텍스트·이미지·영상이 급격히 증가함
Slop Evader는 이러한 AI 생성물로 인한 온라인 정보 오염을 피하기 위한 목적에서 제작됨
사용자는 이 확장 프로그램을 통해 인간이 직접 작성하거나 제작한 콘텐츠만 탐색 가능함

기능과 의의

검색 결과를 2022년 11월 30일 이전 게시물로 한정함으로써, AI 생성물의 영향을 최소화함
Google 검색 API를 기반으로 작동해 기존 검색 환경과 유사한 사용 경험을 유지함
AI 콘텐츠 확산 속에서 인간 중심의 정보 접근성을 보장하는 도구로 기능함

▲

GN⁺ 3달전 [-]

Hacker News 의견

ChatGPT 공개 이전(2022년 11월 30일)까지의 콘텐츠만 검색하는 도구라 함
하지만 검색 품질 저하는 그보다 훨씬 전부터 시작된 것 같음
Google뿐 아니라 모든 검색엔진이 이미 나빠지고 있었고, 이후 AI가 그 하락세를 가속시켰음
특히 YouTube 검색 UI를 Google 검색에 억지로 이식한 게 문제였음
사용자가 원하는 건 “다른 사람들이 검색한 xyz”가 아니라 정확한 결과인데, 광고와 클릭 유도 요소로 UI 혼란만 커졌음
- Kagi라는 검색엔진을 알고 있는지 묻고 싶음
  여기서는 AI 기능을 완전히 끌 수 있음
  현재 회원은 약 6만 1천 명, 월 2천 명씩 증가 중임 (통계 링크)
- 사실 자동 생성 콘텐츠는 ChatGPT 이전부터 존재했음
  2020년쯤엔 이미 스크랩된 콘텐츠나 키워드 스팸으로 채워진 SEO 페이지가 많았음
  단순한 언어모델이나 마르코프 체인으로 만든 글도 많았음
- “Google made the search results worse”라는 문장을 패러디하며
  “worse results near me”, “best worse results” 같은 자동완성 농담을 던짐
- Google의 목적이 사용자가 정보를 찾는 게 아니라 체류 시간 증가라는 점을 지적함
  기업식 표현으로 사람들의 삶을 불편하게 만드는 걸 포장한다고 비꼼
- 나는 10년 넘게 DuckDuckGo를 써왔음
  주로 프로그래밍 관련 문서 검색용으로 쓰는데 여전히 결과가 꽤 정확함
  내 검색 패턴이 단순해서일 수도 있지만, DDG는 여전히 쓸 만함
누군가 “우리는 제2차 세계대전 이후의 저방사능 강철(low-background steel) 처럼 ‘저배경 토큰’을 채굴하고 있다”고 말했는데, 그 비유가 머릿속에서 떠나질 않음
관련 글을 Latent Space에 정리했음
인간이 만든 토큰이 AI가 만든 것보다 정말 더 ‘고신호’인지 확신은 없음
- 실제로는 저방사능 강철이 더 이상 필요하지 않음
  위키피디아 설명에 따르면 1963년 부분 핵실험금지조약 이후 방사능 수준이 충분히 낮아졌기 때문임
- 요즘은 합성 데이터가 워낙 흔해서 이런 개념이 새롭지도 않음
- “그 말 한 사람은 나, swyx였음”이라고 밝힘
- 인간 세대는 항상 이전 세대의 불완전한 유산 위에 쌓아왔음
  우리는 그것을 “거인의 어깨 위에 서기”라고 불렀음
이런 프로젝트를 보면 Cyberpunk 2077의 설정이 떠오름
첫 번째 인터넷이 위험한 AI들로 오염되어 거대한 방화벽을 세우고, 인간 중심의 새 인터넷을 만든다는 이야기였음
언젠가 인간 전용 인터넷이 필요해질지도 모른다는 생각이 듦
물론 현실적으론 어려운 일이고, 인간임을 지속적으로 인증해야 하는 meatspace-first 네트워크 같은 개념을 상상해봄
- 문제는 콘텐츠가 진짜 인간의 생각에서 나온 것인지 검증 불가능하다는 점임
  대부분의 콘텐츠가 이미 AI의 영향을 받았고, 단순히 참고하는 수준과 복붙 사기는 다름
- Nick Bostrom의 말처럼, 한 번 세상에 나온 문명 교란 기술은 되돌릴 수 없음
  결국 적응해야 함
  Mastodon이나 Discord, Matrix 같은 자율 네트워크가 그 방향의 예시라고 생각함
- 이미 사람들은 Signal, WhatsApp, Telegram 같은 비공개 그룹으로 이동 중임
- Peter Watts의 Starfish 3부작이나 Neal Stephenson의 Anathem에서도 비슷한 설정이 나왔음
- “인간 전용 인터넷”이라 해도, 인간이 AI의 영향을 받는다면 의미가 없을 것임
ChatGPT 이전의 em-dash(—) 사용량 순위를 보여주는 HN 리더보드가 있음
링크
- double hyphen(--) 을 쓰는 사람들도 포함해야 한다고 제안함
- 1위 사용자의 댓글을 보니 백틱(’) 을 아포스트로피 대신 쓰는 습관도 있었음
- “en dash(–)” 사용자도 좀 챙겨줘야 한다며 농담함
이런 기능은 확장 프로그램 없이도 가능함
Google 검색에 before: 필터를 추가하면 됨
예: Happiness before:2022
AI 생성 콘텐츠가 그렇게 큰 문제인지 모르겠음
대부분은 원래 콘텐츠 팜 SEO 스팸을 대체한 것뿐임
예전에도 그런 글은 안 읽었고, 지금은 문장만 좀 더 매끄러워졌을 뿐임
검색 위생만 잘 지키면 문제없다고 생각함
다만 Reddit의 r/chess에서는 사람들이 ChatGPT 답변을 자신이 쓴 것처럼 올리는 경우가 많음
- 동료가 ChatGPT로 작성한 버그 리포트를 보냈는데, 버그를 완전히 잘못 짚었음
  그 후 대화도 ChatGPT로 이어가며 내가 틀렸다고 주장했음
  이런 미래가 불안함
- 예전엔 틀린 답변이 한두 개뿐이라 쉽게 걸러졌는데,
  지금은 형식만 다른 동일한 오답이 수십 개씩 있음
- 과학·기술 관련 서브레딧에도 ChatGPT 재게시물이 넘침
  사람들은 자신이 철학적 돌파구를 발견했다고 착각하고 글을 올림
  /r/localllama 같은 곳도 AI 스팸이 많고, HN의 일부 “Show HN”도 LLM이 만든 가짜 포트폴리오임
  나도 그런 글에 시간 낭비한 적이 있음
- 예전의 SEO 스팸은 그래도 사실 기반이었음
  요리 레시피 사이트처럼 불필요한 부분을 건너뛸 수 있었음
  하지만 지금은 거의 모든 검색어가 AI 생성 문장으로 덮여 있음
  예전엔 희귀한 검색어로 정확한 결과를 얻었지만, 이제는 의미 없는 페이지들을 헤쳐 나가야 함
- 반론으로, 예전엔 좋은 글을 쓰면 검색엔진이 알아서 찾아줬는데
  이제는 그 인간의 글이 LLM 학습 데이터로 흡수되어 다음 세대의 AI 콘텐츠로 재활용됨
  원치 않아도 그렇게 됨
“인터넷의 저방사능 강철”이라는 표현이 흥미로움
관련 위키 링크
- 반년 전에도 같은 주제가 HN에서 언급됨
ChatGPT로 리서치하다가 겪은 일임
- 잘못된 답변을 자신 있게 환각(hallucination) 함
- 그 내용을 메모리에 저장해 계속 유지함
- 출처를 물으니 AI가 만든 두 개의 가짜 기사로 자기 자신을 인용함
  결국 원 출처인 기관의 인간 작성 문서를 찾아 해결했음
  이런 일이 지식의 경계 영역에서 자주 발생함
- AI는 Stack Overflow 답변을 뒤지는 느낌임
  첫 번째 답이 맞을 수도, 아닐 수도 있음
  하지만 챗봇은 잘못된 방향에서 벗어나기가 어려움
- 간단한 해결책은 서로 다른 LLM 3개로 같은 질문을 던져보고
  결과가 일치하면 환각 가능성이 낮다고 판단하는 것임
이미지 검색에는 same.energy가 괜찮음
몇 년째 방치됐지만 여전히 작동하고, AI 이미지가 거의 없음
제품 자체도 꽤 훌륭함
Google 검색 결과는 ChatGPT 이전부터 이미 90%가 SEO 쓰레기였음
그냥 Kagi를 쓰고 SEO 사이트를 차단하면 됨
- 그런데 Kagi는 어떻게 SEO 사이트를 구분하는지 궁금함
  필터 리스트나 판별 기준이 있는지 묻고 싶음

답변달기