GN⁺: 텍스트 분류에서 Gzip 및 KNN이 Transformers를 능가합니다.
(twitter.com/LukeGessler)Hacker News 의견
- 저자들은 "정규화된 압축 거리" (NCD)라는 거리 함수를 사용하여 압축된 문서에 kNN을 적용합니다.
- 이 방법은 zero-shot 분류 작업에서 BERT보다 성능이 우수합니다.
- 많은 단어가 겹치는 경우 Gzip은 강력하지만, DNN은 의미적 유사성에서 더 우수합니다.
- 결과는 흥미로우나 그들이 들리는 것만큼 흥미로운 것은 아닙니다.
- 분포 범위 밖의 데이터에서는 BERT가 여전히 더 우수한 성능을 발휘합니다.
- 압축 알고리즘과 ML 모델은 모두 압축의 형태이며, 인간의 언어와 데이터의 성능을 설명하는 근본적인 특성이 있을 수 있습니다.
- 링크는 주어진 URL의 논문을 가리켜야 합니다.
- 유사한 텍스트 조각을 연결하는 것이 다른 조각보다 더 잘 압축됩니다.
- Gzip은 입력을 인식하고 레이블을 지정할 수 있는 방식으로 표현하기 때문에 압축에 더 적합할 수 있습니다.
- "not"와 같이 문장의 의미를 뒤집는 단어에 대해 Gzip은 어려움을 겪을 수 있습니다.```