1P by neo 2023-07-18 | favorite | 댓글 1개
  • 트위터에서 주목받은 최근 논문 "저자 없는" 텍스트 분류: 압축기를 사용한 파라미터 없는 분류 방법
  • 논문의 저자는 결과를 재현하기 위해 소스 코드를 확인하였고, kNN 코드에서 버그나 예상치 못한 선택 사항을 발견하였습니다.
  • 코드의 버그로 인해 해당 방법의 정확도 수치가 예상보다 높게 나타납니다.
  • 논문의 Table 5에서 gzip 방법이 다른 신경망 기반 방법보다 우수한 성능을 보여줍니다.
  • 저자는 숫자를 다시 계산하였고, 수정된 결과가 실험의 결론을 크게 바꾸었음을 발견하였습니다.
  • 논문은 k=2인 kNN 분류기를 사용하였는데, 이는 kNN 분류에는 이상한 선택입니다.
  • 소스 코드에는 보고된 정확도에 영향을 주는 예상치 못한 우선순위 결정 전략이 있습니다.
  • 저자는 다른 우선순위 결정 전략을 사용하여 결과를 비교하기 위해 자체 구현을 제공합니다.
  • 재계산된 결과는 원래 코드와 저자의 구현이 유사한 결과를 제공합니다.
  • 필리핀 데이터셋의 높은 정확도와 "table5"와 "code" 결과 사이의 약간의 차이에 대해 여전히 의문이 남아 있습니다.
Hacker News 의견
  • "gzip beats BERT" 논문의 실수는 ML에서의 세심한 방법론적 오류입니다.
  • ML에 압축 알고리즘을 적용하는 것은 "무료 식사"가 아니며 특별한 마법을 낼 수 없을 수도 있습니다.
  • 블로그 글의 저자는 논문에 관한 GitHub 이슈를 제출했습니다.
  • 좋은 과학은 좋은 소프트웨어 엔지니어링을 필요로 하며 실험에서 실수는 흔합니다.
  • 이 문제에 대한 블로그 글은 문제에 대한 빛을 비추기 위해 감사히 받아들여지고 있습니다.
  • 논문에서 분류기로 kNN의 선택이 의문을 제기하며 대안적인 알고리즘을 제안합니다.
  • 논문의 결과는 압축 알고리즘이 LLM을 이길 수 있는 방법에 대한 의문을 제기했습니다.
  • 논문에 대해 거창한 주장을 한 사람들은 주장을 재고해야 할 수도 있습니다.
  • 블로그 글은 Twitter에서 추가적인 토론과 분석을 유발했습니다.
  • 논문의 결과에서 무작위로 발생하는 동점을 고려한 가능성이 제기되었습니다.