- 구글 Ngram Viewer n-grams의 부정확성에 대한 기사
- Ngram이 보여주는 일반적인 영어 단어의 빈도가 20세기의 실제 사용을 정확하게 반영하지 않는다는 저자의 지적
- 저자와 Talia Felix가 Google Books를 연구에 사용하였으나, 많은 숨겨진 오류가 있는 잘못 조립된 데이터베이스로 발견
- Ngram의 공식에서 Google Books로부터 상속받은 오류 중 하나로, 많은 영어 단어들이 20세기 동안 사용이 감소하다가 1980년대에 다시 부활하는 것처럼 보이게 하는 오류 설명
- 이 오류는 Google Books의 말뭉치가 대부분 학문적인 것으로, 현대 과학 및 학술 저널이 한정된 단어들을 반복적으로 사용하는 경향 때문에 발생
- 학술적 글쓰기에서 특정 단어의 과도한 사용이 다른 단어들의 빈도를 잘못하게 낮추어, 거의 모든 단어의 Ngram에서 20세기 중반 "하강"을 만듦
- 다른 오류로는 Google Books가 변형 철자와 복수형에서 동일성을 인식하지 못하는 것
- Google Books의 많은 파일들이 잘못 날짜 지정되어 있어, 데이터의 정확성을 더욱 손상시킨다는 저자의 언급
- 이러한 부정확성에도 불구하고, 온라인에서는 사진이 이기고 단어가 지기 때문에 Ngrams이 여전히 사용됨
- 저자는 Ngrams을 장식적이고 기발한 것으로, 단어 사용의 정확한 표현이 아니라고 보는 것을 독자들에게 권고
- 저자는 세상이 Ngram 현실을 선호하더라도, 독자들이 그것보다 더 똑똑해질 수 있다고 결론짓는다.