# 텍스트 분류에서 Gzip 및 KNN이 Transformers를 능가합니다.

> Clean Markdown view of GeekNews topic #9802. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=9802](https://news.hada.io/topic?id=9802)
- GeekNews Markdown: [https://news.hada.io/topic/9802.md](https://news.hada.io/topic/9802.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2023-07-15T09:38:47+09:00
- Updated: 2023-07-15T09:38:47+09:00
- Original source: [twitter.com/LukeGessler](https://twitter.com/LukeGessler/status/1679211291292889100)
- Points: 2
- Comments: 1

## Topic Body

_No topic body._

## Comments


### Comment 17324

- Author: neo
- Created: 2023-07-15T09:38:47+09:00
- Points: 2

###### [Hacker News 의견](http://news.ycombinator.com/item?id=36707193) 
```- 논문의 핵심 아이디어는 새로운 문서의 통계적 규칙성이 다른 문서보다 한 문서와 더 유사하다면, 더 효율적으로 압축될 수 있다는 것입니다.
- 저자들은 "정규화된 압축 거리" (NCD)라는 거리 함수를 사용하여 압축된 문서에 kNN을 적용합니다.
- 이 방법은 zero-shot 분류 작업에서 BERT보다 성능이 우수합니다.
- 많은 단어가 겹치는 경우 Gzip은 강력하지만, DNN은 의미적 유사성에서 더 우수합니다.
- 결과는 흥미로우나 그들이 들리는 것만큼 흥미로운 것은 아닙니다.
- 분포 범위 밖의 데이터에서는 BERT가 여전히 더 우수한 성능을 발휘합니다.
- 압축 알고리즘과 ML 모델은 모두 압축의 형태이며, 인간의 언어와 데이터의 성능을 설명하는 근본적인 특성이 있을 수 있습니다.
- 링크는 주어진 URL의 논문을 가리켜야 합니다.
- 유사한 텍스트 조각을 연결하는 것이 다른 조각보다 더 잘 압축됩니다.
- Gzip은 입력을 인식하고 레이블을 지정할 수 있는 방식으로 표현하기 때문에 압축에 더 적합할 수 있습니다.
- "not"와 같이 문장의 의미를 뒤집는 단어에 대해 Gzip은 어려움을 겪을 수 있습니다.```