- 트위터에서 주목받은 최근 논문 "저자 없는" 텍스트 분류: 압축기를 사용한 파라미터 없는 분류 방법
- 논문의 저자는 결과를 재현하기 위해 소스 코드를 확인하였고, kNN 코드에서 버그나 예상치 못한 선택 사항을 발견하였습니다.
- 코드의 버그로 인해 해당 방법의 정확도 수치가 예상보다 높게 나타납니다.
- 논문의 Table 5에서 gzip 방법이 다른 신경망 기반 방법보다 우수한 성능을 보여줍니다.
- 저자는 숫자를 다시 계산하였고, 수정된 결과가 실험의 결론을 크게 바꾸었음을 발견하였습니다.
- 논문은 k=2인 kNN 분류기를 사용하였는데, 이는 kNN 분류에는 이상한 선택입니다.
- 소스 코드에는 보고된 정확도에 영향을 주는 예상치 못한 우선순위 결정 전략이 있습니다.
- 저자는 다른 우선순위 결정 전략을 사용하여 결과를 비교하기 위해 자체 구현을 제공합니다.
- 재계산된 결과는 원래 코드와 저자의 구현이 유사한 결과를 제공합니다.
- 필리핀 데이터셋의 높은 정확도와 "table5"와 "code" 결과 사이의 약간의 차이에 대해 여전히 의문이 남아 있습니다.