ChatGPT 공개 이전에 생성된 콘텐츠만 검색하는 도구
(tegabrain.com)- AI 생성물 오염을 피하기 위해 만들어진 브라우저 확장 프로그램으로, 인간이 작성한 콘텐츠만 검색하도록 설계됨
- Google 검색 API를 이용해 2022년 11월 30일 이전에 게시된 결과만 반환함
- Chrome과 Firefox에서 다운로드 및 사용 가능
- ChatGPT와 다른 대형 언어 모델의 등장 이후 인터넷에 AI 생성 텍스트·이미지·영상이 급증한 상황을 전제로 함
- 인간이 만든 자료에만 접근하려는 사용자에게 신뢰 가능한 검색 환경을 제공함
Slop Evader 개요
- Slop Evader는 AI 생성물 회피용 브라우저 확장 프로그램으로, Chrome과 Firefox에서 사용 가능
- 사용자는 확장 프로그램을 설치해 AI가 만든 콘텐츠를 걸러낼 수 있음
- 이 도구는 ChatGPT 공개 이전(2022년 11월 30일) 에 생성된 콘텐츠만 검색 결과로 표시함
- Google 검색 API를 활용해 날짜 기준으로 결과를 제한함
개발 배경
- ChatGPT와 기타 대형 언어 모델(LLM) 의 공개 이후, 인터넷에는 AI가 만든 텍스트·이미지·영상이 급격히 증가함
- Slop Evader는 이러한 AI 생성물로 인한 온라인 정보 오염을 피하기 위한 목적에서 제작됨
- 사용자는 이 확장 프로그램을 통해 인간이 직접 작성하거나 제작한 콘텐츠만 탐색 가능함
기능과 의의
- 검색 결과를 2022년 11월 30일 이전 게시물로 한정함으로써, AI 생성물의 영향을 최소화함
- Google 검색 API를 기반으로 작동해 기존 검색 환경과 유사한 사용 경험을 유지함
- AI 콘텐츠 확산 속에서 인간 중심의 정보 접근성을 보장하는 도구로 기능함
Hacker News 의견
-
ChatGPT 공개 이전(2022년 11월 30일)까지의 콘텐츠만 검색하는 도구라 함
하지만 검색 품질 저하는 그보다 훨씬 전부터 시작된 것 같음
Google뿐 아니라 모든 검색엔진이 이미 나빠지고 있었고, 이후 AI가 그 하락세를 가속시켰음
특히 YouTube 검색 UI를 Google 검색에 억지로 이식한 게 문제였음
사용자가 원하는 건 “다른 사람들이 검색한 xyz”가 아니라 정확한 결과인데, 광고와 클릭 유도 요소로 UI 혼란만 커졌음-
Kagi라는 검색엔진을 알고 있는지 묻고 싶음
여기서는 AI 기능을 완전히 끌 수 있음
현재 회원은 약 6만 1천 명, 월 2천 명씩 증가 중임 (통계 링크) - 사실 자동 생성 콘텐츠는 ChatGPT 이전부터 존재했음
2020년쯤엔 이미 스크랩된 콘텐츠나 키워드 스팸으로 채워진 SEO 페이지가 많았음
단순한 언어모델이나 마르코프 체인으로 만든 글도 많았음 - “Google made the search results worse”라는 문장을 패러디하며
“worse results near me”, “best worse results” 같은 자동완성 농담을 던짐 - Google의 목적이 사용자가 정보를 찾는 게 아니라 체류 시간 증가라는 점을 지적함
기업식 표현으로 사람들의 삶을 불편하게 만드는 걸 포장한다고 비꼼 - 나는 10년 넘게 DuckDuckGo를 써왔음
주로 프로그래밍 관련 문서 검색용으로 쓰는데 여전히 결과가 꽤 정확함
내 검색 패턴이 단순해서일 수도 있지만, DDG는 여전히 쓸 만함
-
Kagi라는 검색엔진을 알고 있는지 묻고 싶음
-
누군가 “우리는 제2차 세계대전 이후의 저방사능 강철(low-background steel) 처럼 ‘저배경 토큰’을 채굴하고 있다”고 말했는데, 그 비유가 머릿속에서 떠나질 않음
관련 글을 Latent Space에 정리했음
인간이 만든 토큰이 AI가 만든 것보다 정말 더 ‘고신호’인지 확신은 없음- 실제로는 저방사능 강철이 더 이상 필요하지 않음
위키피디아 설명에 따르면 1963년 부분 핵실험금지조약 이후 방사능 수준이 충분히 낮아졌기 때문임 - 요즘은 합성 데이터가 워낙 흔해서 이런 개념이 새롭지도 않음
- “그 말 한 사람은 나, swyx였음”이라고 밝힘
- 인간 세대는 항상 이전 세대의 불완전한 유산 위에 쌓아왔음
우리는 그것을 “거인의 어깨 위에 서기”라고 불렀음
- 실제로는 저방사능 강철이 더 이상 필요하지 않음
-
이런 프로젝트를 보면 Cyberpunk 2077의 설정이 떠오름
첫 번째 인터넷이 위험한 AI들로 오염되어 거대한 방화벽을 세우고, 인간 중심의 새 인터넷을 만든다는 이야기였음
언젠가 인간 전용 인터넷이 필요해질지도 모른다는 생각이 듦
물론 현실적으론 어려운 일이고, 인간임을 지속적으로 인증해야 하는 meatspace-first 네트워크 같은 개념을 상상해봄- 문제는 콘텐츠가 진짜 인간의 생각에서 나온 것인지 검증 불가능하다는 점임
대부분의 콘텐츠가 이미 AI의 영향을 받았고, 단순히 참고하는 수준과 복붙 사기는 다름 - Nick Bostrom의 말처럼, 한 번 세상에 나온 문명 교란 기술은 되돌릴 수 없음
결국 적응해야 함
Mastodon이나 Discord, Matrix 같은 자율 네트워크가 그 방향의 예시라고 생각함 - 이미 사람들은 Signal, WhatsApp, Telegram 같은 비공개 그룹으로 이동 중임
- Peter Watts의 Starfish 3부작이나 Neal Stephenson의 Anathem에서도 비슷한 설정이 나왔음
- “인간 전용 인터넷”이라 해도, 인간이 AI의 영향을 받는다면 의미가 없을 것임
- 문제는 콘텐츠가 진짜 인간의 생각에서 나온 것인지 검증 불가능하다는 점임
-
ChatGPT 이전의 em-dash(—) 사용량 순위를 보여주는 HN 리더보드가 있음
링크- double hyphen(--) 을 쓰는 사람들도 포함해야 한다고 제안함
- 1위 사용자의 댓글을 보니 백틱(’) 을 아포스트로피 대신 쓰는 습관도 있었음
- “en dash(–)” 사용자도 좀 챙겨줘야 한다며 농담함
-
이런 기능은 확장 프로그램 없이도 가능함
Google 검색에before:필터를 추가하면 됨
예: Happiness before:2022 -
AI 생성 콘텐츠가 그렇게 큰 문제인지 모르겠음
대부분은 원래 콘텐츠 팜 SEO 스팸을 대체한 것뿐임
예전에도 그런 글은 안 읽었고, 지금은 문장만 좀 더 매끄러워졌을 뿐임
검색 위생만 잘 지키면 문제없다고 생각함
다만 Reddit의 r/chess에서는 사람들이 ChatGPT 답변을 자신이 쓴 것처럼 올리는 경우가 많음- 동료가 ChatGPT로 작성한 버그 리포트를 보냈는데, 버그를 완전히 잘못 짚었음
그 후 대화도 ChatGPT로 이어가며 내가 틀렸다고 주장했음
이런 미래가 불안함 - 예전엔 틀린 답변이 한두 개뿐이라 쉽게 걸러졌는데,
지금은 형식만 다른 동일한 오답이 수십 개씩 있음 - 과학·기술 관련 서브레딧에도 ChatGPT 재게시물이 넘침
사람들은 자신이 철학적 돌파구를 발견했다고 착각하고 글을 올림
/r/localllama 같은 곳도 AI 스팸이 많고, HN의 일부 “Show HN”도 LLM이 만든 가짜 포트폴리오임
나도 그런 글에 시간 낭비한 적이 있음 - 예전의 SEO 스팸은 그래도 사실 기반이었음
요리 레시피 사이트처럼 불필요한 부분을 건너뛸 수 있었음
하지만 지금은 거의 모든 검색어가 AI 생성 문장으로 덮여 있음
예전엔 희귀한 검색어로 정확한 결과를 얻었지만, 이제는 의미 없는 페이지들을 헤쳐 나가야 함 - 반론으로, 예전엔 좋은 글을 쓰면 검색엔진이 알아서 찾아줬는데
이제는 그 인간의 글이 LLM 학습 데이터로 흡수되어 다음 세대의 AI 콘텐츠로 재활용됨
원치 않아도 그렇게 됨
- 동료가 ChatGPT로 작성한 버그 리포트를 보냈는데, 버그를 완전히 잘못 짚었음
-
“인터넷의 저방사능 강철”이라는 표현이 흥미로움
관련 위키 링크- 반년 전에도 같은 주제가 HN에서 언급됨
-
ChatGPT로 리서치하다가 겪은 일임
- 잘못된 답변을 자신 있게 환각(hallucination) 함
- 그 내용을 메모리에 저장해 계속 유지함
- 출처를 물으니 AI가 만든 두 개의 가짜 기사로 자기 자신을 인용함
결국 원 출처인 기관의 인간 작성 문서를 찾아 해결했음
이런 일이 지식의 경계 영역에서 자주 발생함
- AI는 Stack Overflow 답변을 뒤지는 느낌임
첫 번째 답이 맞을 수도, 아닐 수도 있음
하지만 챗봇은 잘못된 방향에서 벗어나기가 어려움 - 간단한 해결책은 서로 다른 LLM 3개로 같은 질문을 던져보고
결과가 일치하면 환각 가능성이 낮다고 판단하는 것임
-
이미지 검색에는 same.energy가 괜찮음
몇 년째 방치됐지만 여전히 작동하고, AI 이미지가 거의 없음
제품 자체도 꽤 훌륭함 -
Google 검색 결과는 ChatGPT 이전부터 이미 90%가 SEO 쓰레기였음
그냥 Kagi를 쓰고 SEO 사이트를 차단하면 됨- 그런데 Kagi는 어떻게 SEO 사이트를 구분하는지 궁금함
필터 리스트나 판별 기준이 있는지 묻고 싶음
- 그런데 Kagi는 어떻게 SEO 사이트를 구분하는지 궁금함