ChatGPT 공개 이전(2022년 11월 30일)까지의 콘텐츠만 검색하는 도구라 함
하지만 검색 품질 저하는 그보다 훨씬 전부터 시작된 것 같음
Google뿐 아니라 모든 검색엔진이 이미 나빠지고 있었고, 이후 AI가 그 하락세를 가속시켰음
특히 YouTube 검색 UI를 Google 검색에 억지로 이식한 게 문제였음
사용자가 원하는 건 “다른 사람들이 검색한 xyz”가 아니라 정확한 결과인데, 광고와 클릭 유도 요소로 UI 혼란만 커졌음
Kagi라는 검색엔진을 알고 있는지 묻고 싶음
여기서는 AI 기능을 완전히 끌 수 있음
현재 회원은 약 6만 1천 명, 월 2천 명씩 증가 중임 (통계 링크)
사실 자동 생성 콘텐츠는 ChatGPT 이전부터 존재했음
2020년쯤엔 이미 스크랩된 콘텐츠나 키워드 스팸으로 채워진 SEO 페이지가 많았음
단순한 언어모델이나 마르코프 체인으로 만든 글도 많았음
“Google made the search results worse”라는 문장을 패러디하며
“worse results near me”, “best worse results” 같은 자동완성 농담을 던짐
Google의 목적이 사용자가 정보를 찾는 게 아니라 체류 시간 증가라는 점을 지적함
기업식 표현으로 사람들의 삶을 불편하게 만드는 걸 포장한다고 비꼼
나는 10년 넘게 DuckDuckGo를 써왔음
주로 프로그래밍 관련 문서 검색용으로 쓰는데 여전히 결과가 꽤 정확함
내 검색 패턴이 단순해서일 수도 있지만, DDG는 여전히 쓸 만함
누군가 “우리는 제2차 세계대전 이후의 저방사능 강철(low-background steel) 처럼 ‘저배경 토큰’을 채굴하고 있다”고 말했는데, 그 비유가 머릿속에서 떠나질 않음
관련 글을 Latent Space에 정리했음
인간이 만든 토큰이 AI가 만든 것보다 정말 더 ‘고신호’인지 확신은 없음
실제로는 저방사능 강철이 더 이상 필요하지 않음 위키피디아 설명에 따르면 1963년 부분 핵실험금지조약 이후 방사능 수준이 충분히 낮아졌기 때문임
요즘은 합성 데이터가 워낙 흔해서 이런 개념이 새롭지도 않음
“그 말 한 사람은 나, swyx였음”이라고 밝힘
인간 세대는 항상 이전 세대의 불완전한 유산 위에 쌓아왔음
우리는 그것을 “거인의 어깨 위에 서기”라고 불렀음
이런 프로젝트를 보면 Cyberpunk 2077의 설정이 떠오름
첫 번째 인터넷이 위험한 AI들로 오염되어 거대한 방화벽을 세우고, 인간 중심의 새 인터넷을 만든다는 이야기였음
언젠가 인간 전용 인터넷이 필요해질지도 모른다는 생각이 듦
물론 현실적으론 어려운 일이고, 인간임을 지속적으로 인증해야 하는 meatspace-first 네트워크 같은 개념을 상상해봄
문제는 콘텐츠가 진짜 인간의 생각에서 나온 것인지 검증 불가능하다는 점임
대부분의 콘텐츠가 이미 AI의 영향을 받았고, 단순히 참고하는 수준과 복붙 사기는 다름
Nick Bostrom의 말처럼, 한 번 세상에 나온 문명 교란 기술은 되돌릴 수 없음
결국 적응해야 함
Mastodon이나 Discord, Matrix 같은 자율 네트워크가 그 방향의 예시라고 생각함
이미 사람들은 Signal, WhatsApp, Telegram 같은 비공개 그룹으로 이동 중임
Peter Watts의 Starfish 3부작이나 Neal Stephenson의 Anathem에서도 비슷한 설정이 나왔음
“인간 전용 인터넷”이라 해도, 인간이 AI의 영향을 받는다면 의미가 없을 것임
ChatGPT 이전의 em-dash(—) 사용량 순위를 보여주는 HN 리더보드가 있음 링크
AI 생성 콘텐츠가 그렇게 큰 문제인지 모르겠음
대부분은 원래 콘텐츠 팜 SEO 스팸을 대체한 것뿐임
예전에도 그런 글은 안 읽었고, 지금은 문장만 좀 더 매끄러워졌을 뿐임
검색 위생만 잘 지키면 문제없다고 생각함
다만 Reddit의 r/chess에서는 사람들이 ChatGPT 답변을 자신이 쓴 것처럼 올리는 경우가 많음
동료가 ChatGPT로 작성한 버그 리포트를 보냈는데, 버그를 완전히 잘못 짚었음
그 후 대화도 ChatGPT로 이어가며 내가 틀렸다고 주장했음
이런 미래가 불안함
예전엔 틀린 답변이 한두 개뿐이라 쉽게 걸러졌는데,
지금은 형식만 다른 동일한 오답이 수십 개씩 있음
과학·기술 관련 서브레딧에도 ChatGPT 재게시물이 넘침
사람들은 자신이 철학적 돌파구를 발견했다고 착각하고 글을 올림
/r/localllama 같은 곳도 AI 스팸이 많고, HN의 일부 “Show HN”도 LLM이 만든 가짜 포트폴리오임
나도 그런 글에 시간 낭비한 적이 있음
예전의 SEO 스팸은 그래도 사실 기반이었음
요리 레시피 사이트처럼 불필요한 부분을 건너뛸 수 있었음
하지만 지금은 거의 모든 검색어가 AI 생성 문장으로 덮여 있음
예전엔 희귀한 검색어로 정확한 결과를 얻었지만, 이제는 의미 없는 페이지들을 헤쳐 나가야 함
반론으로, 예전엔 좋은 글을 쓰면 검색엔진이 알아서 찾아줬는데
이제는 그 인간의 글이 LLM 학습 데이터로 흡수되어 다음 세대의 AI 콘텐츠로 재활용됨
원치 않아도 그렇게 됨
Hacker News 의견
ChatGPT 공개 이전(2022년 11월 30일)까지의 콘텐츠만 검색하는 도구라 함
하지만 검색 품질 저하는 그보다 훨씬 전부터 시작된 것 같음
Google뿐 아니라 모든 검색엔진이 이미 나빠지고 있었고, 이후 AI가 그 하락세를 가속시켰음
특히 YouTube 검색 UI를 Google 검색에 억지로 이식한 게 문제였음
사용자가 원하는 건 “다른 사람들이 검색한 xyz”가 아니라 정확한 결과인데, 광고와 클릭 유도 요소로 UI 혼란만 커졌음
여기서는 AI 기능을 완전히 끌 수 있음
현재 회원은 약 6만 1천 명, 월 2천 명씩 증가 중임 (통계 링크)
2020년쯤엔 이미 스크랩된 콘텐츠나 키워드 스팸으로 채워진 SEO 페이지가 많았음
단순한 언어모델이나 마르코프 체인으로 만든 글도 많았음
“worse results near me”, “best worse results” 같은 자동완성 농담을 던짐
기업식 표현으로 사람들의 삶을 불편하게 만드는 걸 포장한다고 비꼼
주로 프로그래밍 관련 문서 검색용으로 쓰는데 여전히 결과가 꽤 정확함
내 검색 패턴이 단순해서일 수도 있지만, DDG는 여전히 쓸 만함
누군가 “우리는 제2차 세계대전 이후의 저방사능 강철(low-background steel) 처럼 ‘저배경 토큰’을 채굴하고 있다”고 말했는데, 그 비유가 머릿속에서 떠나질 않음
관련 글을 Latent Space에 정리했음
인간이 만든 토큰이 AI가 만든 것보다 정말 더 ‘고신호’인지 확신은 없음
위키피디아 설명에 따르면 1963년 부분 핵실험금지조약 이후 방사능 수준이 충분히 낮아졌기 때문임
우리는 그것을 “거인의 어깨 위에 서기”라고 불렀음
이런 프로젝트를 보면 Cyberpunk 2077의 설정이 떠오름
첫 번째 인터넷이 위험한 AI들로 오염되어 거대한 방화벽을 세우고, 인간 중심의 새 인터넷을 만든다는 이야기였음
언젠가 인간 전용 인터넷이 필요해질지도 모른다는 생각이 듦
물론 현실적으론 어려운 일이고, 인간임을 지속적으로 인증해야 하는 meatspace-first 네트워크 같은 개념을 상상해봄
대부분의 콘텐츠가 이미 AI의 영향을 받았고, 단순히 참고하는 수준과 복붙 사기는 다름
결국 적응해야 함
Mastodon이나 Discord, Matrix 같은 자율 네트워크가 그 방향의 예시라고 생각함
ChatGPT 이전의 em-dash(—) 사용량 순위를 보여주는 HN 리더보드가 있음
링크
이런 기능은 확장 프로그램 없이도 가능함
Google 검색에
before:필터를 추가하면 됨예: Happiness before:2022
AI 생성 콘텐츠가 그렇게 큰 문제인지 모르겠음
대부분은 원래 콘텐츠 팜 SEO 스팸을 대체한 것뿐임
예전에도 그런 글은 안 읽었고, 지금은 문장만 좀 더 매끄러워졌을 뿐임
검색 위생만 잘 지키면 문제없다고 생각함
다만 Reddit의 r/chess에서는 사람들이 ChatGPT 답변을 자신이 쓴 것처럼 올리는 경우가 많음
그 후 대화도 ChatGPT로 이어가며 내가 틀렸다고 주장했음
이런 미래가 불안함
지금은 형식만 다른 동일한 오답이 수십 개씩 있음
사람들은 자신이 철학적 돌파구를 발견했다고 착각하고 글을 올림
/r/localllama 같은 곳도 AI 스팸이 많고, HN의 일부 “Show HN”도 LLM이 만든 가짜 포트폴리오임
나도 그런 글에 시간 낭비한 적이 있음
요리 레시피 사이트처럼 불필요한 부분을 건너뛸 수 있었음
하지만 지금은 거의 모든 검색어가 AI 생성 문장으로 덮여 있음
예전엔 희귀한 검색어로 정확한 결과를 얻었지만, 이제는 의미 없는 페이지들을 헤쳐 나가야 함
이제는 그 인간의 글이 LLM 학습 데이터로 흡수되어 다음 세대의 AI 콘텐츠로 재활용됨
원치 않아도 그렇게 됨
“인터넷의 저방사능 강철”이라는 표현이 흥미로움
관련 위키 링크
ChatGPT로 리서치하다가 겪은 일임
결국 원 출처인 기관의 인간 작성 문서를 찾아 해결했음
이런 일이 지식의 경계 영역에서 자주 발생함
첫 번째 답이 맞을 수도, 아닐 수도 있음
하지만 챗봇은 잘못된 방향에서 벗어나기가 어려움
결과가 일치하면 환각 가능성이 낮다고 판단하는 것임
이미지 검색에는 same.energy가 괜찮음
몇 년째 방치됐지만 여전히 작동하고, AI 이미지가 거의 없음
제품 자체도 꽤 훌륭함
Google 검색 결과는 ChatGPT 이전부터 이미 90%가 SEO 쓰레기였음
그냥 Kagi를 쓰고 SEO 사이트를 차단하면 됨
필터 리스트나 판별 기준이 있는지 묻고 싶음