1P by neo 25일전 | favorite | 댓글 1개

wordfreq가 더 이상 업데이트되지 않는 이유

생성형 AI가 데이터를 오염시킴

  • 2021년 이후 인간의 언어 사용에 대한 신뢰할 수 있는 정보가 없음
  • wordfreq의 데이터 소스 중 하나였던 열린 웹(OSCAR)이 이제는 대형 언어 모델이 생성한 의미 없는 텍스트로 가득 차 있음
  • 이러한 텍스트를 데이터에 포함시키면 단어 빈도가 왜곡됨
  • 예를 들어, ChatGPT는 "delve"라는 단어에 집착하여 그 빈도를 비정상적으로 증가시킴

무료였던 정보가 비싸짐

  • wordfreq는 트위터와 레딧에서 대화형 언어 사용 데이터를 수집했음
  • 트위터 데이터는 항상 불안정했으며, 이제는 트위터가 사라지고 X로 대체됨
  • 레딧도 공공 데이터 아카이브 제공을 중단하고, 이제는 OpenAI만이 지불할 수 있는 가격에 데이터를 판매함

더 이상 이 분야에 참여하고 싶지 않음

  • wordfreq는 코퍼스 언어학과 자연어 처리 도구에 도움이 되었음
  • 그러나 현재 자연어 처리 분야는 생성형 AI에 의해 잠식되고 있음
  • OpenAI와 Google이 통제하는 폐쇄된 데이터에 의존하지 않는 NLP 연구를 찾기 어려움
  • 텍스트 수집 도구는 이제 주로 생성형 AI 훈련에 사용되며, 이는 저작권 침해 문제를 야기함
  • 생성형 AI와 혼동될 수 있는 작업에 참여하고 싶지 않음

GN⁺의 정리

  • wordfreq는 2021년까지의 언어 데이터를 기반으로 한 프로젝트였음
  • 생성형 AI의 등장으로 데이터의 신뢰성이 떨어지고, 트위터와 레딧 같은 주요 데이터 소스가 유료화되면서 업데이트가 중단됨
  • 자연어 처리 분야가 생성형 AI에 의해 잠식되면서, 저자는 더 이상 이 분야에 참여하고 싶지 않음을 밝힘
  • 비슷한 기능을 가진 프로젝트로는 Google Ngram Viewer와 같은 대체 도구를 추천함
Hacker News 의견
  • Google의 SEO 규칙으로 인해 웹이 오염되었음. 단문 단락, 키워드 반복, 가독성보다 색인 가능성에 집중하는 글쓰기 방식이 문제임
    • ML/LLM은 두 번째 오염 원인임. 첫 번째는 기업 봇을 위한 글쓰기였음
  • 2023년에 LowBackgroundSteel.ai를 만들어 오염되지 않은 데이터셋을 모으는 장소로 사용함
    • Wordfreq를 추가할 예정임. Tumblr에 자료를 제출해달라는 요청임
  • NLP 커뮤니티에 대한 실망감을 이해하지만, 모든 사람이 그런 것은 아님
    • 웹 오염 문제는 새로운 것이 아님. PageRank를 조작하려는 스팸 농장 등도 있었음
    • 각 세대의 웹은 그 세대의 문제를 극복하기 위한 기술이 필요함
    • George Orwell의 1984에서 예견한 자동 생성 콘텐츠 소비가 현실이 되었음. 그러나 이 기술은 좋은 방향으로도 사용될 수 있음
  • 웹이 죽었다고 생각함. AI로 인해 유용한 정보를 찾는 데 시간이 더 걸림
    • 특정 무선 이어폰을 찾는 데 10분 이상 걸림. 사이트들이 쓰레기로 가득 차 있음
    • 오래된 노트북으로는 그래픽이 많은 현대 웹사이트를 탐색하기 어려움
    • 웹, 웹 브라우저, 웹 디자인, SEO, 검색, 광고 등 모든 것이 싫음. 웹을 사용하지 않고 구매할 수 있는 방법을 찾고 있음
  • Google Trends 링크를 공유하며 "delve" 검색 결과가 증가하지 않았다는 재미있는 사실을 언급함
  • 2021년 이후 인간의 언어 사용에 대한 신뢰할 만한 정보가 없다고 생각함
    • 텍스트는 이미 임계점을 넘었지만, 비디오는 지금이 중요한 시기임
    • 특히 어린 아이들은 무엇이 진짜인지 구분하기 어려움. 기술은 이미 존재하지만 대부분의 비디오 콘텐츠는 아직 영향을 받지 않음
  • 웹이 LLM에 의해 생성된 쓰레기로 가득 차 있다는 의견에 동의함
    • 많은 경우 SEO를 위해 가치 없는 콘텐츠가 생성됨
  • AGI가 저렴하고 접근 가능해지면 대부분의 작업이 AI에 의해 수행될 것임
    • AI 혁명은 AI의 뿌리와 가장 가까운 분야에서 시작해야 함
  • 2020년 이전의 종이 책이 가치 있는 자산이 될 수 있음
    • 인터넷이 쓰레기로 가득 차고 현대의 종이 책도 의심받게 될 것임
    • AI가 쓴 책의 저자로 인간이 포장될 것임
  • AI로 인해 일자리를 잃은 작가들은 AI 하이퍼스케일러에 의해 고용되어야 함
    • 단, 그들의 작품에는 AI가 생성한 문장이 없어야 함