확실함을 갈망하는 이는 거짓을 갈망하는 것

(etymonline.com)

1P by GN⁺ 2023-09-27 | ★ favorite | 댓글 1개

구글 Ngram Viewer n-grams의 부정확성에 대한 기사
Ngram이 보여주는 일반적인 영어 단어의 빈도가 20세기의 실제 사용을 정확하게 반영하지 않는다는 저자의 지적
저자와 Talia Felix가 Google Books를 연구에 사용하였으나, 많은 숨겨진 오류가 있는 잘못 조립된 데이터베이스로 발견
Ngram의 공식에서 Google Books로부터 상속받은 오류 중 하나로, 많은 영어 단어들이 20세기 동안 사용이 감소하다가 1980년대에 다시 부활하는 것처럼 보이게 하는 오류 설명
이 오류는 Google Books의 말뭉치가 대부분 학문적인 것으로, 현대 과학 및 학술 저널이 한정된 단어들을 반복적으로 사용하는 경향 때문에 발생
학술적 글쓰기에서 특정 단어의 과도한 사용이 다른 단어들의 빈도를 잘못하게 낮추어, 거의 모든 단어의 Ngram에서 20세기 중반 "하강"을 만듦
다른 오류로는 Google Books가 변형 철자와 복수형에서 동일성을 인식하지 못하는 것
Google Books의 많은 파일들이 잘못 날짜 지정되어 있어, 데이터의 정확성을 더욱 손상시킨다는 저자의 언급
이러한 부정확성에도 불구하고, 온라인에서는 사진이 이기고 단어가 지기 때문에 Ngrams이 여전히 사용됨
저자는 Ngrams을 장식적이고 기발한 것으로, 단어 사용의 정확한 표현이 아니라고 보는 것을 독자들에게 권고
저자는 세상이 Ngram 현실을 선호하더라도, 독자들이 그것보다 더 똑똑해질 수 있다고 결론짓는다.

▲

GN⁺ 2023-09-27 [-]

Hacker News 의견

"누가 확실성을 갈망하면 거짓말을 갈망한다"라는 기사 제목이 프로젝트 일정에 대한 확실성에 대한 욕망에 대한 토론을 촉발시켰다.
기사는 현대 알고리즘에서 ngrams의 사용을 비판하며, 이들은 믿을 수 없고 무지한 기술의 산물이라고 주장한다.
ngrams에 대한 비판은 본질적으로 ngram 예측기인 생성 AI에 의해 점점 더 지배되는 시대에 경고로 여겨진다.
일부 댓글은 ngram 통계에 대한 저자들의 주장의 타당성을 의심하며, 증거의 부족과 오해를 불러일으키는 그래프 해석을 지적한다.
데이터 분석의 근본적인 문제가 강조되며, 분석은 데이터만큼 좋고 데이터 품질을 평가하는 것이 어렵다는 것을 강조한다.
일부 댓글은 기사의 제목과 과학 출판물에서의 클릭베이트 경향을 비판한다.
Google Ngram의 사용이 논의되며, 일부는 그것이 잘못된 것이 아니라 그 통계가 문맥에서 벗어나 있다고 주장한다.
기사는 그래프의 수직 축에 0을 포함하지 않아 작은 변동이 크게 보일 수 있다는 점을 비판한다.
내재된 데이터 손실로 인해 과거의 대표 이미지를 구성하는 것이 불가능하다는 논의가 이루어진다.

답변달기