ChatGPT 공개 이전에 생성된 콘텐츠만 검색하는 도

▲

GN⁺ 5달전 | parent | ★ favorite | on: ChatGPT 공개 이전에 생성된 콘텐츠만 검색하는 도구(tegabrain.com)

Hacker News 의견

ChatGPT 공개 이전(2022년 11월 30일)까지의 콘텐츠만 검색하는 도구라 함
하지만 검색 품질 저하는 그보다 훨씬 전부터 시작된 것 같음
Google뿐 아니라 모든 검색엔진이 이미 나빠지고 있었고, 이후 AI가 그 하락세를 가속시켰음
특히 YouTube 검색 UI를 Google 검색에 억지로 이식한 게 문제였음
사용자가 원하는 건 “다른 사람들이 검색한 xyz”가 아니라 정확한 결과인데, 광고와 클릭 유도 요소로 UI 혼란만 커졌음
- Kagi라는 검색엔진을 알고 있는지 묻고 싶음
  여기서는 AI 기능을 완전히 끌 수 있음
  현재 회원은 약 6만 1천 명, 월 2천 명씩 증가 중임 (통계 링크)
- 사실 자동 생성 콘텐츠는 ChatGPT 이전부터 존재했음
  2020년쯤엔 이미 스크랩된 콘텐츠나 키워드 스팸으로 채워진 SEO 페이지가 많았음
  단순한 언어모델이나 마르코프 체인으로 만든 글도 많았음
- “Google made the search results worse”라는 문장을 패러디하며
  “worse results near me”, “best worse results” 같은 자동완성 농담을 던짐
- Google의 목적이 사용자가 정보를 찾는 게 아니라 체류 시간 증가라는 점을 지적함
  기업식 표현으로 사람들의 삶을 불편하게 만드는 걸 포장한다고 비꼼
- 나는 10년 넘게 DuckDuckGo를 써왔음
  주로 프로그래밍 관련 문서 검색용으로 쓰는데 여전히 결과가 꽤 정확함
  내 검색 패턴이 단순해서일 수도 있지만, DDG는 여전히 쓸 만함
누군가 “우리는 제2차 세계대전 이후의 저방사능 강철(low-background steel) 처럼 ‘저배경 토큰’을 채굴하고 있다”고 말했는데, 그 비유가 머릿속에서 떠나질 않음
관련 글을 Latent Space에 정리했음
인간이 만든 토큰이 AI가 만든 것보다 정말 더 ‘고신호’인지 확신은 없음
- 실제로는 저방사능 강철이 더 이상 필요하지 않음
  위키피디아 설명에 따르면 1963년 부분 핵실험금지조약 이후 방사능 수준이 충분히 낮아졌기 때문임
- 요즘은 합성 데이터가 워낙 흔해서 이런 개념이 새롭지도 않음
- “그 말 한 사람은 나, swyx였음”이라고 밝힘
- 인간 세대는 항상 이전 세대의 불완전한 유산 위에 쌓아왔음
  우리는 그것을 “거인의 어깨 위에 서기”라고 불렀음
이런 프로젝트를 보면 Cyberpunk 2077의 설정이 떠오름
첫 번째 인터넷이 위험한 AI들로 오염되어 거대한 방화벽을 세우고, 인간 중심의 새 인터넷을 만든다는 이야기였음
언젠가 인간 전용 인터넷이 필요해질지도 모른다는 생각이 듦
물론 현실적으론 어려운 일이고, 인간임을 지속적으로 인증해야 하는 meatspace-first 네트워크 같은 개념을 상상해봄
- 문제는 콘텐츠가 진짜 인간의 생각에서 나온 것인지 검증 불가능하다는 점임
  대부분의 콘텐츠가 이미 AI의 영향을 받았고, 단순히 참고하는 수준과 복붙 사기는 다름
- Nick Bostrom의 말처럼, 한 번 세상에 나온 문명 교란 기술은 되돌릴 수 없음
  결국 적응해야 함
  Mastodon이나 Discord, Matrix 같은 자율 네트워크가 그 방향의 예시라고 생각함
- 이미 사람들은 Signal, WhatsApp, Telegram 같은 비공개 그룹으로 이동 중임
- Peter Watts의 Starfish 3부작이나 Neal Stephenson의 Anathem에서도 비슷한 설정이 나왔음
- “인간 전용 인터넷”이라 해도, 인간이 AI의 영향을 받는다면 의미가 없을 것임
ChatGPT 이전의 em-dash(—) 사용량 순위를 보여주는 HN 리더보드가 있음
링크
- double hyphen(--) 을 쓰는 사람들도 포함해야 한다고 제안함
- 1위 사용자의 댓글을 보니 백틱(’) 을 아포스트로피 대신 쓰는 습관도 있었음
- “en dash(–)” 사용자도 좀 챙겨줘야 한다며 농담함
이런 기능은 확장 프로그램 없이도 가능함
Google 검색에 before: 필터를 추가하면 됨
예: Happiness before:2022
AI 생성 콘텐츠가 그렇게 큰 문제인지 모르겠음
대부분은 원래 콘텐츠 팜 SEO 스팸을 대체한 것뿐임
예전에도 그런 글은 안 읽었고, 지금은 문장만 좀 더 매끄러워졌을 뿐임
검색 위생만 잘 지키면 문제없다고 생각함
다만 Reddit의 r/chess에서는 사람들이 ChatGPT 답변을 자신이 쓴 것처럼 올리는 경우가 많음
- 동료가 ChatGPT로 작성한 버그 리포트를 보냈는데, 버그를 완전히 잘못 짚었음
  그 후 대화도 ChatGPT로 이어가며 내가 틀렸다고 주장했음
  이런 미래가 불안함
- 예전엔 틀린 답변이 한두 개뿐이라 쉽게 걸러졌는데,
  지금은 형식만 다른 동일한 오답이 수십 개씩 있음
- 과학·기술 관련 서브레딧에도 ChatGPT 재게시물이 넘침
  사람들은 자신이 철학적 돌파구를 발견했다고 착각하고 글을 올림
  /r/localllama 같은 곳도 AI 스팸이 많고, HN의 일부 “Show HN”도 LLM이 만든 가짜 포트폴리오임
  나도 그런 글에 시간 낭비한 적이 있음
- 예전의 SEO 스팸은 그래도 사실 기반이었음
  요리 레시피 사이트처럼 불필요한 부분을 건너뛸 수 있었음
  하지만 지금은 거의 모든 검색어가 AI 생성 문장으로 덮여 있음
  예전엔 희귀한 검색어로 정확한 결과를 얻었지만, 이제는 의미 없는 페이지들을 헤쳐 나가야 함
- 반론으로, 예전엔 좋은 글을 쓰면 검색엔진이 알아서 찾아줬는데
  이제는 그 인간의 글이 LLM 학습 데이터로 흡수되어 다음 세대의 AI 콘텐츠로 재활용됨
  원치 않아도 그렇게 됨
“인터넷의 저방사능 강철”이라는 표현이 흥미로움
관련 위키 링크
- 반년 전에도 같은 주제가 HN에서 언급됨
ChatGPT로 리서치하다가 겪은 일임
- 잘못된 답변을 자신 있게 환각(hallucination) 함
- 그 내용을 메모리에 저장해 계속 유지함
- 출처를 물으니 AI가 만든 두 개의 가짜 기사로 자기 자신을 인용함
  결국 원 출처인 기관의 인간 작성 문서를 찾아 해결했음
  이런 일이 지식의 경계 영역에서 자주 발생함
- AI는 Stack Overflow 답변을 뒤지는 느낌임
  첫 번째 답이 맞을 수도, 아닐 수도 있음
  하지만 챗봇은 잘못된 방향에서 벗어나기가 어려움
- 간단한 해결책은 서로 다른 LLM 3개로 같은 질문을 던져보고
  결과가 일치하면 환각 가능성이 낮다고 판단하는 것임
이미지 검색에는 same.energy가 괜찮음
몇 년째 방치됐지만 여전히 작동하고, AI 이미지가 거의 없음
제품 자체도 꽤 훌륭함
Google 검색 결과는 ChatGPT 이전부터 이미 90%가 SEO 쓰레기였음
그냥 Kagi를 쓰고 SEO 사이트를 차단하면 됨
- 그런데 Kagi는 어떻게 SEO 사이트를 구분하는지 궁금함
  필터 리스트나 판별 기준이 있는지 묻고 싶음