"\"gzip beats BERT\" 논문의 부정확한 숫자?"

(kenschutte.com)

1P by GN⁺ 2023-07-18 | ★ favorite | 댓글 1개

트위터에서 주목받은 최근 논문 "저자 없는" 텍스트 분류: 압축기를 사용한 파라미터 없는 분류 방법
논문의 저자는 결과를 재현하기 위해 소스 코드를 확인하였고, kNN 코드에서 버그나 예상치 못한 선택 사항을 발견하였습니다.
코드의 버그로 인해 해당 방법의 정확도 수치가 예상보다 높게 나타납니다.
논문의 Table 5에서 gzip 방법이 다른 신경망 기반 방법보다 우수한 성능을 보여줍니다.
저자는 숫자를 다시 계산하였고, 수정된 결과가 실험의 결론을 크게 바꾸었음을 발견하였습니다.
논문은 k=2인 kNN 분류기를 사용하였는데, 이는 kNN 분류에는 이상한 선택입니다.
소스 코드에는 보고된 정확도에 영향을 주는 예상치 못한 우선순위 결정 전략이 있습니다.
저자는 다른 우선순위 결정 전략을 사용하여 결과를 비교하기 위해 자체 구현을 제공합니다.
재계산된 결과는 원래 코드와 저자의 구현이 유사한 결과를 제공합니다.
필리핀 데이터셋의 높은 정확도와 "table5"와 "code" 결과 사이의 약간의 차이에 대해 여전히 의문이 남아 있습니다.

GN⁺ 2023-07-18 [-]

Hacker News 의견

"gzip beats BERT" 논문의 실수는 ML에서의 세심한 방법론적 오류입니다.
ML에 압축 알고리즘을 적용하는 것은 "무료 식사"가 아니며 특별한 마법을 낼 수 없을 수도 있습니다.
블로그 글의 저자는 논문에 관한 GitHub 이슈를 제출했습니다.
좋은 과학은 좋은 소프트웨어 엔지니어링을 필요로 하며 실험에서 실수는 흔합니다.
이 문제에 대한 블로그 글은 문제에 대한 빛을 비추기 위해 감사히 받아들여지고 있습니다.
논문에서 분류기로 kNN의 선택이 의문을 제기하며 대안적인 알고리즘을 제안합니다.
논문의 결과는 압축 알고리즘이 LLM을 이길 수 있는 방법에 대한 의문을 제기했습니다.
논문에 대해 거창한 주장을 한 사람들은 주장을 재고해야 할 수도 있습니다.
블로그 글은 Twitter에서 추가적인 토론과 분석을 유발했습니다.
논문의 결과에서 무작위로 발생하는 동점을 고려한 가능성이 제기되었습니다.