# "\"gzip beats BERT\" 논문의 부정확한 숫자?"

> Clean Markdown view of GeekNews topic #9853. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=9853](https://news.hada.io/topic?id=9853)
- GeekNews Markdown: [https://news.hada.io/topic/9853.md](https://news.hada.io/topic/9853.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2023-07-18T09:57:08+09:00
- Updated: 2023-07-18T09:57:08+09:00
- Original source: [kenschutte.com](https://kenschutte.com/gzip-knn-paper/)
- Points: 1
- Comments: 1

## Topic Body

- 트위터에서 주목받은 최근 논문 "저자 없는" 텍스트 분류: 압축기를 사용한 파라미터 없는 분류 방법
- 논문의 저자는 결과를 재현하기 위해 소스 코드를 확인하였고, kNN 코드에서 버그나 예상치 못한 선택 사항을 발견하였습니다.
- 코드의 버그로 인해 해당 방법의 정확도 수치가 예상보다 높게 나타납니다.
- 논문의 Table 5에서 gzip 방법이 다른 신경망 기반 방법보다 우수한 성능을 보여줍니다.
- 저자는 숫자를 다시 계산하였고, 수정된 결과가 실험의 결론을 크게 바꾸었음을 발견하였습니다.
- 논문은 k=2인 kNN 분류기를 사용하였는데, 이는 kNN 분류에는 이상한 선택입니다.
- 소스 코드에는 보고된 정확도에 영향을 주는 예상치 못한 우선순위 결정 전략이 있습니다.
- 저자는 다른 우선순위 결정 전략을 사용하여 결과를 비교하기 위해 자체 구현을 제공합니다.
- 재계산된 결과는 원래 코드와 저자의 구현이 유사한 결과를 제공합니다.
- 필리핀 데이터셋의 높은 정확도와 "table5"와 "code" 결과 사이의 약간의 차이에 대해 여전히 의문이 남아 있습니다.

## Comments



### Comment 17397

- Author: neo
- Created: 2023-07-18T09:57:08+09:00
- Points: 1

###### [Hacker News 의견](http://news.ycombinator.com/item?id=36758433) 
- "gzip beats BERT" 논문의 실수는 ML에서의 세심한 방법론적 오류입니다.
- ML에 압축 알고리즘을 적용하는 것은 "무료 식사"가 아니며 특별한 마법을 낼 수 없을 수도 있습니다.
- 블로그 글의 저자는 논문에 관한 GitHub 이슈를 제출했습니다.
- 좋은 과학은 좋은 소프트웨어 엔지니어링을 필요로 하며 실험에서 실수는 흔합니다.
- 이 문제에 대한 블로그 글은 문제에 대한 빛을 비추기 위해 감사히 받아들여지고 있습니다.
- 논문에서 분류기로 kNN의 선택이 의문을 제기하며 대안적인 알고리즘을 제안합니다.
- 논문의 결과는 압축 알고리즘이 LLM을 이길 수 있는 방법에 대한 의문을 제기했습니다.
- 논문에 대해 거창한 주장을 한 사람들은 주장을 재고해야 할 수도 있습니다.
- 블로그 글은 Twitter에서 추가적인 토론과 분석을 유발했습니다.
- 논문의 결과에서 무작위로 발생하는 동점을 고려한 가능성이 제기되었습니다.
