인터넷, AI로 가득 찬 쓰레기 정보

(aftermath.site)

6P by GN⁺ 2024-01-12 | ★ favorite | 댓글 1개

인터넷 검색은 한때 “let me Google that for you”가 통할 만큼 쉬웠지만, 이제는 AI 생성 정보와 잘못된 검색 결과 때문에 사람에게 다시 확인해야 하는 상황이 늘어남
Google은 링크 대신 페이지 스냅샷을 검색 결과 안에서 보여주며, Quora의 AI 답변처럼 “계란이 녹을 수 있다”는 틀린 정보까지 노출함
검색 품질 저하는 부비동 염증 검색이 음경 염증 결과로 이어지는 사례처럼, 단순한 AI 답변 문제를 넘어 검색 맥락 자체를 흔듦
한 Twitter 사용자는 경쟁 사이트의 색인 URL을 내보낸 뒤 AI로 유사 글을 빠르게 만들어 Google 결과를 앞지르는 트래픽 탈취 방식을 공개함
Sports Illustrated의 AI 작성·가짜 필자 의혹은 검색 노출과 광고 수익을 겨냥한 콘텐츠 생산이 독자 신뢰를 어떻게 해치는지 보여줌

Google 검색이 잘못된 답을 앞세우는 방식

과거에는 온라인에서 질문하는 사람을 “직접 Google에서 찾아보라”고 조롱할 수 있을 만큼 검색 신뢰가 높았고, “let me Google that for you”라는 표현도 그 맥락에서 쓰였음
지금은 인터넷에 AI 생성 쓰레기 정보가 많아져, 검색 결과만으로 정보를 확인하기 어려워지고 사람에게 다시 물어야 할 가능성이 커짐
Google은 웹사이트 링크만 보여주는 대신 페이지 일부를 스냅샷 형태로 드롭다운에 노출해, 사용자가 클릭하지 않고도 결과를 읽게 함
- 이 방식은 원문 맥락을 확인하기 전에 잘못된 정보를 먼저 보게 만들 수 있음
- 2023년 9월에는 Quora의 AI 생성 답변을 가져와 Google이 계란이 녹을 수 있다고 잘못 안내한 사례가 있었음
부비동 염증을 검색했을 때 음경 염증 관련 결과가 반환되는 사례도 재현되며, 검색 결과의 관련성 자체가 흔들리는 모습이 드러남

AI 콘텐츠가 검색 결과를 점유하는 사례

한 Twitter 사용자는 Google 검색 결과에서 특정 웹사이트를 앞지르기 위한 인터넷 트래픽 “heist”를 수행했다고 주장함
- 대상 웹사이트의 사이트 색인을 확인함
- 기사 URL을 내보냄
- AI로 해당 URL 기반 글을 빠르게 작성함
- 웹페이지 제목을 직접 수정하는 작업은 “선택 사항”이라고 표현함
Sports Illustrated는 Futurism 보도 이후 여러 글이 AI로 작성됐고, 존재하지 않는 사람을 필자로 내세웠다는 의혹을 받음
- Futurism이 코멘트를 요청하자 해당 콘텐츠가 삭제됨
- Sports Illustrated는 이후 해당 글들이 제3자가 작성했으며 AI 생성물이 아니고, 필자들은 필명을 사용했다고 밝힘
- 이 해명은 언론 문의 뒤 글이 삭제된 이유를 설명하지 못함
- Sports Illustrated가 2023년 2월 Wall Street Journal 기사에서 AI로 콘텐츠와 기사 아이디어를 생성하겠다고 공개적으로 밝힌 사실도 남아 있음
인터넷은 사람과 사람이 정보를 나누는 저장소라기보다, 점점 기계와 기계가 소통하는 공간에 가까워지고 있음
“let me Google that for you”라는 표현은 더 이상 예전처럼 유효하지 않으며, 검색 결과에서 틀린 정보나 완전한 조작물을 만날 가능성이 커짐
Sports Illustrated의 자금 결정권자들은 독자를 제대로 섬기기보다 Google 검색 결과를 조작하고 그로 인한 광고 수익을 얻는 데 더 관심이 있다는 비판을 받음

GN⁺ 2024-01-12 [-]

Hacker News 의견들

LLM 확산으로 쓸모 있던 휴리스틱 하나를 잃었음. 예전에는 맞춤법과 문법이 엉망인 글을 보고 가치 없는 게시물을 빠르게 걸러낼 수 있었지만, AI가 만든 쓰레기 글에는 전혀 통하지 않음
언어 구사력은 완벽하고 대다수 사람보다 낫기까지 해서, 누구나 겉보기엔 그럴듯한 글을 즉시 만들 수 있음. 예전 SEO 스패머처럼 카피라이터를 고용할 필요도 없어졌고, curl이 가짜 AI 버그 리포트로 고생한 사례가 좋은 예임: https://news.ycombinator.com/item?id=38845878
이제 시작일 뿐이고 훨씬 나빠질 것이라, 언젠가는 알곡과 쭉정이를 구분하기 불가능해질 수도 있음
- archive.org에 더 많이 기부해야 함. Wayback Machine이 2020년쯤 이후에 나온 것들을 잘라내고 인터넷에서 유용한 데이터를 찾을 수 있는 유일한 방법이 될지도 모름
- 흐름은 순환함. 검색 엔진은 링크된 웹사이트를 발견하는 데 훨씬 좋았지만, 사람들이 SEO 게임을 하고 가짜 글과 상호 링크를 쏟아내면서 모두가 같은 진부한 말을 반복했고 검색 품질이 추락했음
  같은 생각을 반복해서 되새길 거라면 자동화하지 않을 이유가 없고, 결국 사람들은 좋은 글이 원래 어디서 나왔는지도 잊게 됨. 예를 들면 LLM이 Stack Overflow를 대체하고, Stack Overflow가 기술 문서를 대체하는 식임. 생산 비용이 거의 0이면 아무도 품질을 신경 쓰지 않다가, 충분히 질리면 다시 입소문 기반의 선별된 웹으로 행동이 반대편으로 흔들릴 것 같음
- 고등학생 때 SEO 카피라이팅을 했는데, ChatGPT 출력은 그때 만들던 글 수준과 거의 같음. 핵심은 특정 키워드를 넣고, 팔려는 것과 살짝 관련된 얕은 정보성 글을 쓰는 일이었음
  시간이 지나면 AI 지능에 이상한 소용돌이 같은 효과가 생길 수 있음. 지금은 ChatGPT에 Stack Overflow식 질문을 하면 Stack Overflow식 답변을 즉시 받을 수 있지만, 진실성과 정확성은 도박에 가까움. 앞으로 사람들이 거기에 더 의존하고 Stack Overflow에 덜 올리면, AI가 학습할 정보의 우물이 말라가고 때때로 맞는 끈적한 루프만 남을 수 있음. 기술이 발전할수록 문제가 될 수도 있고, 그때는 기술 문서로 학습할지도 모름
- 맞춤법과 문법이 나쁘다는 건 그냥 비원어민의 글일 수도 있음
- 맞는 말임. ClosedAI가 망치기 전 인터넷이 그립다고 생각했는데, 이제는 2020년 인터넷으로 돌아가고 싶을 정도임
  LLM 연구는 여러 방식으로 사회의 몰락을 부를 것 같음. 친구가 석사를 하는데 모두가 ChatGPT로 답변을 쓰고 있고, 정치적으로 조심스러운 표현 뒤에 끝에서 요약하는 방식이 너무 뻔함. 그냥 퇴학당했으면 함
제목에는 동의하지만, 인터넷이 GPT-4, 3, 2 이전과 크게 달라졌다고 보지는 않음. 인턴이나 인도 가상 비서가 일반 주제로 쓴 글도 대부분 AI 생성물만큼 나쁘고 구분도 쉽지 않았음
요즘 검색 엔진이 질의와 웹페이지 텍스트의 일치보다 권위를 우선해 정렬하는 것도 도움이 안 됨. 사람들은 이제 웹을 많이 쓰지도 않고 앱 안에서 살며, 휴대폰으로 웹페이지를 탐색하는 경우는 질문을 “구글링”할 때 정도임. 그마저도 보통 한 단계 이상 깊이 들어가지 않고 앱 경험으로 돌아감
웹은 오래전부터 형편없었고 더 나빠졌지만, 곧 중요하지 않을 수도 있음. 독자는 천천히 끓는 물 속의 개구리였고, 이제 온도가 확 올라가서 상황을 깨달은 셈임
앞으로 “웹”이 남으려면 새 익명화 계층으로 이동할 뿐 아니라, 저품질 자료를 대량 생성하기 어렵게 잦은 화폐 교환이 필요하다고 봄. 대중의 90%가 돈을 내기 싫다면 계속 찌꺼기를 먹으면 됨. 스팸의 양이 크게 늘었다는 뜻으로 끓는 개구리 비유를 쓴 것임
- 완전히 동의함. SEO 스패머가 몇 년 전에 이미 공개 웹을 망쳤고, Google은 광고 수익을 위해 그걸 가능하게 하는 데 최선을 다했음
- 핵심 변수인 양을 놓치고 있음. 인턴이나 외주 콘텐츠도 있었지만, 그래도 사람이 시간을 들여 만든 쓰레기였음
  이제는 그 쓰레기의 양을 제한하던 요소가 사라졌음
- 웹의 콘텐츠는 소셜 미디어, 뉴스, “책”이 된 전자책으로 흘러 들어가며, 조작된 정보의 무형의 소용돌이를 만듦
  하수가 상수도에 들어가면 아무도 안전하지 않음. 수원지에서 떨어진 수도꼭지를 쓴다고 안심할 수는 없음
- 저품질 콘텐츠가 항상 있었다는 데는 동의함. 하지만 지금 문제는 생성 가능한 오해성 정보의 규모임
  양이 늘었거나 계속 늘고 있어서, 이제 합법적이고 제대로 된 것을 찾기가 훨씬 어려워짐. 앱에 대한 통찰은 좋음
- 다음 세대 AI가 웹을 선별하는 데 얼마나 좋아질 수 있을지 궁금함
  모든 게시자가 1년, 2년, 5년의 시간 지평에서 예측 능력, 편향, 사실 정확성을 AI로 자동 평가받는다면 어떻게 될까 싶음
이런 말을 하게 될 줄은 몰랐지만, 클리어넷이 이렇게 위태로운 상황에서는 모든 정보가 Discord 안에 사일로화되는 것도 그렇게 나쁘지 않아 보임. 검색 엔진에 색인되지 않으면 AI 찌꺼기 옆에 나타나거나 학습 데이터로 쓰일 가능성이 거의 없어짐
인터넷의 미래는 결국 사람임. 기계는 한때 잘하던 기본 작업조차 더는 믿을 수 없고, 복잡한 작업을 못하는 쪽을 택하느라 기본 작업의 효율성까지 버렸음
- 모든 기술을 망치는 근본 동학은 과도한 상업화임. 지금 시대에는 광고가 인터넷, 특히 웹의 인센티브를 완전히 망가뜨렸음
  온라인 소매 시대에는 거래와 사업 모델이 투명했지만, 뒤편의 광고·주의 경제에서는 흐릿하고 왜곡됨. 사실상 모든 참여자가 사람들의 자유시간과 주의를 수익화하고 소비를 강요하면서 즐겁게 죽이는 쪽으로 공모하고 있음
  Google에 2010년에 입사해 2019년에 나왔는데, 2010년 연매출은 약 300억 달러였고 작년에는 3000억 달러였음. 창립 이후 연 20% 성장을 꽤 꾸준히 했으니 2024년에 그걸 맞추려면 새 매출 600억 달러가 필요함. 1년 안에 2010년 Google 두 개 분량의 매출을 찾아야 하는 셈이고, 2010년 Google은 만드는 데 12년이 걸렸으니 말이 안 됨
- 강하게 반대함. 오래전부터 온라인에서 이민 관련 질문에 답해 왔는데, 사람들이 몇 년 전 스레드에 댓글을 달거나 비공개로 그 내용을 물어보는 일이 자주 있음. 즉 공개 콘텐츠는 시간이 지나며 많은 사람에게 도움이 됨
  반면 비공개 Facebook 그룹의 내용은 길어야 며칠짜리 수명을 가짐. 유용한 지식을 가능한 넓은 청중과 공유하는 게 목표라면 Discord 그룹은 큰 퇴보임
- Discord가 그 데이터를 AI 회사에 팔기 시작하면 이야기가 달라지지 않나
- 학습 데이터로 쓰이는 것과 이 문제가 무슨 관련인지 모르겠음. 핵심은 AI 찌꺼기와 정확한 정보를 구분하는 능력임
- Discord도 검색 가능함: https://www.answeroverflow.com/
탈출구는 진정성이고, 서명된 콘텐츠만이 그걸 제공할 수 있음. 어떤 것도 액면 그대로 받아들일 수 없고, 생성됐거나 위조됐을 수 있음
누구나 무엇이든 게시할 수 있고, AI가 더 많은 것을 게시해 인간을 압도할 때는 평판과 진정성에 의존해 누가 무엇을 냈고 또 무엇을 말하는지 알아야만 걸러낼 수 있음. 신뢰 웹은 예전에 시도됐지만 은박 모자 쓴 괴짜들의 물건이라는 구석에서 벗어나지 못했음. 이제 다시 시도할 때일 수 있음
- 서명된 콘텐츠는 그 내용이 사람이 썼거나 편집했다는 보장을 전혀 하지 못함. 키 탈취 위험 때문에, 서명한 사람이 실제로 게시했다는 보장조차 없음
  디지털 콘텐츠의 진정성을 검증하는 것은 물리적으로도, 철학적으로도, 기술적으로도 불가능함. 아날로그 세계와 디지털 세계의 경계에서는 언제나 속일 수 있음
  공급망 인증에 블록체인이 성공적으로 쓰이지 못한 이유도 같음. 523번 물품에 유효한 해시가 붙어 있다는 건 검증할 수 있지만, 그 해시가 가짜가 아니라 실제 523번 물품에 적용됐다는 건 증명할 수 없음
- 진짜 판은 증명 가능한 신원 시스템이라고 봄. 증명(attestation)을 지원하는 신원 시스템이 밀려오면, AI가 고품질 결과를 내든 순수 쓰레기를 대량 생산하든 상관없어짐
  후자의 경우 Apple, Google, Microsoft(TPM 경유) 같은 플랫폼 소유자에게 큰 승리가 됨. 그들이 사용자가 “봇이 아님”을 증명할 수 있기 때문임. 5년 뒤에는 의미 있게 온라인에 참여하려면 이 셋 중 하나와 관계가 필요해져도 놀랍지 않음
  AI가 “실패”해도 계속 밀어붙일 이유가 생김. 인터넷 사용자 상당수를 신원과 증명 구독 모델로 옮길 수 있기 때문임. 돈을 내지 않으면 콘텐츠는 기본적으로 생성 쓰레기로 간주되어 노출되지 않을 것임
  기업 쪽에서는 예전 SSL과 코드 서명 체계가 자선처럼 보일 정도의 구조가 나올 수 있음. BIMI 같은 것을 모든 게시 콘텐츠에 적용하고, 건당 과금하는 방식도 가능함. 더 많이 낼수록 더 “신뢰할 수 있는” 식의 가격 차별도 생길 수 있음. 결국 정부 서비스의 신원과 인증이 Google이나 Apple 같은 민간 기업에 넘어가고, 실제 신원이 그 회사의 증명과 묶일까 두려움
  1. https://www.w3.org/TR/webauthn/#sctn-defined-attestation-for...
  2. https://bimigroup.org/
- 진심으로 궁금한데, 이게 어떻게 문제를 해결하나. 내가 쓰레기 글을 잔뜩 생성한 뒤 서명해서 게시할 수도 있음
  Apple이나 Google 같은 곳이 사용자 증명 서비스를 제공해도, AI 쓰레기를 자동 생성하고 서명하는 것 역시 가능하지 않나
- 탈출구가 진정성이라면, 평평한 지구론자들도 상당수는 정말 진정성 있게 믿는 듯함
- 가장 미친 부분은 Jaron Lanier가 이미 20년 전, 어쩌면 그보다 더 전에 이 말을 했다는 점임
LLM 생성 콘텐츠가 가속했을 뿐 오래된 문제임. Google이 광고 수익과 광고 기술 지배력을 키우는 쪽으로 강하게 가고 SEO가 검색 결과 전반에 난립하면서 LMGTFY는 죽었음
요즘은 맨질맨질한 질의만으로 편향 없는 사실 정보를 얻기가 꽤 어렵고, 그래서 먼저 Reddit에서 정보를 찾으려 함. 이것도 만병통치약은 아니고 지난 몇 년간 위장 홍보 콘텐츠가 가득했지만, Reddit이 덜 인기 있고 조작하기 어려웠던 시절의 오래된 스레드나 작은 커뮤니티의 스레드는 보통 괜찮은 선택임
- 어떤 ThreeJS 클래스 문서 페이지를 Google이 어떤 키워드로도 못 찾아주는 걸 보고 결국 Kagi로 갈아탔음. 그 페이지의 URL 자체를 붙여넣어야 검색 결과 맨 위에 나타났음
  Kagi는 클래스명만으로 첫 시도에 찾았음. 유료 검색이 길이고, 광고 인센티브는 검색과 충돌함. 주소창 기본 검색으로 Kagi를 설정했는데 아주 좋음
- 항상 기억해야 할 점은 Google 검색이 검색 결과를 주는 게 아니라, 사용자의 버블에 맞춘 정교한 페이지를 생성한다는 것임. Facebook도 Twitter도 알고리즘만 다를 뿐 마찬가지임
  Google 검색은 같은 질의라도 사람마다 같은 결과를 돌려주지 않음. 이건 AltaVista 같은 역사적 검색 엔진이나 ElasticSearch와 다르고, 아직 검색 엔진이라고 불리더라도 검색 엔진으로 취급하지 않을 충분한 이유가 됨. 개인 맞춤 광고용 헛소리 벽에 가까움
- 스패머들이 지금 Reddit에 글 쓰는 데 AI를 안 쓴다고 생각하나
인터넷이 유기농 개똥으로 가득하던 시절을 기억할 만큼 나이가 들었음
- 인간이 원조 헛소리 생성기임. AI는 인간이 늘 해오던 일을 하고 있을 뿐임
- Google을 버리고 웹링으로 돌아갈 때임
- 요즘은 장인정신이 담긴 유기농 헛소리 판매자도 있지만, 비쌈
- Stack Overflow를 긁어 만든 답변 스팸 같은 걸 말하나. 그게 작년쯤 아니었나. 이제 Google은 거의 안 쓰고 그냥 Bing chat에 물어봄
- 인간의 뻘글은 적어도 재미는 있음
결국 광고는 돈을 벌기 위해 존재하고, 봇이 신용카드를 갖기 전까지는 그 돈이 인간에게서 나옴. 어떤 영역에서 갑자기 “참여”나 트래픽이 늘었는데 인간의 지출로 전환되지 않는다면 Google 같은 회사도 손익에서 알아차릴 것임
Google은 이 문제가 예산에 충분히 크게 나타날 때 대응을 시작할 것임. 여러 회사에서 들리는 기술 업계 해고, 오늘 다른 HN 스레드에 나온 Google 이야기도 바람의 방향을 보여주는 신호일 수 있음
- AI는 콘텐츠를 소비하는 게 아니라 생성함. 사람들이 AI가 만든 광고나 콘텐츠로 가짜·저질 제품에 쉽게 속는다면, 그건 계속 Google 매출을 밀어 올릴 것임
  Google이 SEO 조작을 싫어하는 유일한 이유는 사이트들이 유료 프로모션 없이 검색 상단 공간을 차지할 수 있기 때문이지, 제품 품질은 중요하지 않음
  사람들이 너무 많은 나쁜 제품에 데여 예전에 믿던 사이트나 검색 결과를 더는 신뢰하지 않게 되는 신뢰 붕괴가 와야 문제가 됨. 직업 때문에 Instagram에서 회색시장 약물 광고를 많이 보는데, FDA 검증을 받지 않았고 대부분은 사기 약이나 Amanita Muscaria, Delta-8 THC로 위장한 연구용 화학물질이라는 걸 알아서 무시함
- Google은 알아차릴 수 있지만, 인간들이 돈을 안 쓰게 된 대상이 Google이 아니기 때문에 막는 데 돈을 쓸 유인은 없음
  Google에 광고하는 회사들은 광고의 투자수익률 하락을 느낄 수 있지만, 대부분 다른 선택지가 없다고 보기 때문에 Google을 떠나기까지는 시간이 걸릴 것임. 이게 Google의 손익에 닿을 때까지 기다린다면 인터넷이 어떻게 변할지 두려움
- 광고 기술 지출에 대해 너무 관대한 생각을 하는 듯함. 가장 큰 플레이어들은 이미 직접 그런 일을 하고 있음
- 흥미로운 관점이지만, 광고주들이 온라인 광고에 돈을 낭비하고 있다고 판단하기 전에는 Google이 타격을 받지 않을 것임
  이미 말라붙었어야 할 주제들도 있지만, 아마 사기가 그 영역의 광고 기계를 먹여 살리고 있을 수 있음. 피트니스나 체중 감량 같은 건 Google을 거의 쓸 수 없음. 리모델링할 때도 건축 자재, 특히 페인트는 검색 불가능해졌다는 걸 알게 됨. 결국 매장에 가서 물어보는 게 신뢰할 수 있는 정보와 추천을 얻는 유일한 방법이었음
  Google은 아직 많은 영역에서 작동하지만, 정말 잘하는 건 상품 광고임. 사고 싶은 게 있으면 Google 광고 엔진이 찾아주고, 다만 정확히 무엇을 원하는지는 알아야 함
- 왜 인간의 지출로 이어지지 않겠나. 광고도 진짜고 방문자도 진짜라면, 콘텐츠가 진짜인지는 상관없음
  오히려 페이지가 일반적이고 재미없을수록 사람들이 광고를 클릭할 가능성이 더 높을 수도 있음
“AI” 장악 전에도 이미 SEO가 요구한 인간 생성 헛소리로 가득했으니, 지난 몇 년 사이 실제로 잃은 건 그렇게 많지 않음. 업계에 들어온 지 10년이 훨씬 넘었고 거의 그만큼 오래 이 말을 해왔음
- 그게 사실이라면 지난 10년간의 모든 뉴스와 역사도 인간 생성 헛소리라는 결론이 됨. 틀렸다는 건 아니지만, 믿는 바의 결론까지 따라가야 함
차이가 없음. 웹 검색은 이미 15년 넘게 쓸모없었음. 지금은 이전보다 아주 조금 더 나쁠 뿐인데, 이전 상황도 질문을 하면 첫 결과가 마케팅 페이지로 가득하거나, 아니면 “블로그” 형태의 얄팍한 마케팅 쓰레기로 이어지는 정도였음
직업이 “콘텐츠 제작”이나 “수익형 블로그”인 사람에게 변기 닦는 법 같은 질문의 답을 맡기고 싶지 않음. 글의 예시와 10년 전 결과의 차이는, 전자는 명백히 틀렸고 후자는 해당 분야에서 일하지 않는 한 반박하는 데 며칠이 걸릴 법한 내용이라는 점뿐임
Anathem을 읽었다면, Ita로서 Reticulum의 쓰레기를 걸러내는 게 어차피 우리 일임. 이제 해보자는 느낌임
https://en.wikipedia.org/wiki/Anathem
https://anathem.fandom.com/wiki/Ita
https://anathem.fandom.com/wiki/Reticulum
- Reticulum 초창기에는 결함 있고 낡았거나 노골적으로 오해를 부르는 정보로 어수선해져 거의 쓸모없어졌고, 그래서 쓰레기 필터링이 중요해졌다는 Anathem의 구절이 떠오름
  기업들은 그 쓰레기를 걸러내는 제품을 팔려고 일부러 우물을 오염시켰고, 무작위 글자가 아니라 “잘 만든 쓰레기”, 즉 100개의 검증 가능한 참 문장과 은근히 틀린 1문장이 들어간 보기 좋은 문서를 만들었음. 처음엔 사람을 고용해야 했지만, 군이 관심을 가지며 “Artificial Inanity” 프로그램이 발전했고 상업 영역과 봇넷으로 퍼졌다는 내용임
  LLM을 묘사하는 표현으로 Artificial Inanity가 마음에 듦
- 거의 25년 전부터 그게 미래라고 생각했음. #5 참고: https://ymlibrary.com/download/Topics/Self/Work-School/Work-...

답변달기

인터넷, AI로 가득 찬 쓰레기 정보

Google 검색이 잘못된 답을 앞세우는 방식

AI 콘텐츠가 검색 결과를 점유하는 사례

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들