1P by neo 2023-09-27 | favorite | 댓글 1개
  • 구글 Ngram Viewer n-grams의 부정확성에 대한 기사
  • Ngram이 보여주는 일반적인 영어 단어의 빈도가 20세기의 실제 사용을 정확하게 반영하지 않는다는 저자의 지적
  • 저자와 Talia Felix가 Google Books를 연구에 사용하였으나, 많은 숨겨진 오류가 있는 잘못 조립된 데이터베이스로 발견
  • Ngram의 공식에서 Google Books로부터 상속받은 오류 중 하나로, 많은 영어 단어들이 20세기 동안 사용이 감소하다가 1980년대에 다시 부활하는 것처럼 보이게 하는 오류 설명
  • 이 오류는 Google Books의 말뭉치가 대부분 학문적인 것으로, 현대 과학 및 학술 저널이 한정된 단어들을 반복적으로 사용하는 경향 때문에 발생
  • 학술적 글쓰기에서 특정 단어의 과도한 사용이 다른 단어들의 빈도를 잘못하게 낮추어, 거의 모든 단어의 Ngram에서 20세기 중반 "하강"을 만듦
  • 다른 오류로는 Google Books가 변형 철자와 복수형에서 동일성을 인식하지 못하는 것
  • Google Books의 많은 파일들이 잘못 날짜 지정되어 있어, 데이터의 정확성을 더욱 손상시킨다는 저자의 언급
  • 이러한 부정확성에도 불구하고, 온라인에서는 사진이 이기고 단어가 지기 때문에 Ngrams이 여전히 사용됨
  • 저자는 Ngrams을 장식적이고 기발한 것으로, 단어 사용의 정확한 표현이 아니라고 보는 것을 독자들에게 권고
  • 저자는 세상이 Ngram 현실을 선호하더라도, 독자들이 그것보다 더 똑똑해질 수 있다고 결론짓는다.
Hacker News 의견
  • "누가 확실성을 갈망하면 거짓말을 갈망한다"라는 기사 제목이 프로젝트 일정에 대한 확실성에 대한 욕망에 대한 토론을 촉발시켰다.
  • 기사는 현대 알고리즘에서 ngrams의 사용을 비판하며, 이들은 믿을 수 없고 무지한 기술의 산물이라고 주장한다.
  • ngrams에 대한 비판은 본질적으로 ngram 예측기인 생성 AI에 의해 점점 더 지배되는 시대에 경고로 여겨진다.
  • 일부 댓글은 ngram 통계에 대한 저자들의 주장의 타당성을 의심하며, 증거의 부족과 오해를 불러일으키는 그래프 해석을 지적한다.
  • 데이터 분석의 근본적인 문제가 강조되며, 분석은 데이터만큼 좋고 데이터 품질을 평가하는 것이 어렵다는 것을 강조한다.
  • 일부 댓글은 기사의 제목과 과학 출판물에서의 클릭베이트 경향을 비판한다.
  • Google Ngram의 사용이 논의되며, 일부는 그것이 잘못된 것이 아니라 그 통계가 문맥에서 벗어나 있다고 주장한다.
  • 기사는 그래프의 수직 축에 0을 포함하지 않아 작은 변동이 크게 보일 수 있다는 점을 비판한다.
  • 내재된 데이터 손실로 인해 과거의 대표 이미지를 구성하는 것이 불가능하다는 논의가 이루어진다.