GN⁺ 2024-09-19 | parent | ★ favorite | on: wordfreq 업데이트 중단 이유(github.com/rspeer)
Hacker News 의견
  • Google의 SEO 규칙으로 인해 웹이 오염되었음. 단문 단락, 키워드 반복, 가독성보다 색인 가능성에 집중하는 글쓰기 방식이 문제임
    • ML/LLM은 두 번째 오염 원인임. 첫 번째는 기업 봇을 위한 글쓰기였음
  • 2023년에 LowBackgroundSteel.ai를 만들어 오염되지 않은 데이터셋을 모으는 장소로 사용함
    • Wordfreq를 추가할 예정임. Tumblr에 자료를 제출해달라는 요청임
  • NLP 커뮤니티에 대한 실망감을 이해하지만, 모든 사람이 그런 것은 아님
    • 웹 오염 문제는 새로운 것이 아님. PageRank를 조작하려는 스팸 농장 등도 있었음
    • 각 세대의 웹은 그 세대의 문제를 극복하기 위한 기술이 필요함
    • George Orwell의 1984에서 예견한 자동 생성 콘텐츠 소비가 현실이 되었음. 그러나 이 기술은 좋은 방향으로도 사용될 수 있음
  • 웹이 죽었다고 생각함. AI로 인해 유용한 정보를 찾는 데 시간이 더 걸림
    • 특정 무선 이어폰을 찾는 데 10분 이상 걸림. 사이트들이 쓰레기로 가득 차 있음
    • 오래된 노트북으로는 그래픽이 많은 현대 웹사이트를 탐색하기 어려움
    • 웹, 웹 브라우저, 웹 디자인, SEO, 검색, 광고 등 모든 것이 싫음. 웹을 사용하지 않고 구매할 수 있는 방법을 찾고 있음
  • Google Trends 링크를 공유하며 "delve" 검색 결과가 증가하지 않았다는 재미있는 사실을 언급함
  • 2021년 이후 인간의 언어 사용에 대한 신뢰할 만한 정보가 없다고 생각함
    • 텍스트는 이미 임계점을 넘었지만, 비디오는 지금이 중요한 시기임
    • 특히 어린 아이들은 무엇이 진짜인지 구분하기 어려움. 기술은 이미 존재하지만 대부분의 비디오 콘텐츠는 아직 영향을 받지 않음
  • 웹이 LLM에 의해 생성된 쓰레기로 가득 차 있다는 의견에 동의함
    • 많은 경우 SEO를 위해 가치 없는 콘텐츠가 생성됨
  • AGI가 저렴하고 접근 가능해지면 대부분의 작업이 AI에 의해 수행될 것임
    • AI 혁명은 AI의 뿌리와 가장 가까운 분야에서 시작해야 함
  • 2020년 이전의 종이 책이 가치 있는 자산이 될 수 있음
    • 인터넷이 쓰레기로 가득 차고 현대의 종이 책도 의심받게 될 것임
    • AI가 쓴 책의 저자로 인간이 포장될 것임
  • AI로 인해 일자리를 잃은 작가들은 AI 하이퍼스케일러에 의해 고용되어야 함
    • 단, 그들의 작품에는 AI가 생성한 문장이 없어야 함