GN⁺: 10줄 미만의 코드로 GZIP을 사용하여 78%의 MNIST 정확도 달성
(jakobs.dev)- GZIP을 사용하여 MNIST 데이터셋에서 10줄 미만의 코드로 78%의 정확도 달성에 대한 기사
- 저자는 최첨단 결과를 달성하는 것이 아니라 압축을 독특하고 모델이 없는 분류 도구로 사용하는 잠재력을 보여주는 것이 이 게시물의 새로움이라고 강조
- 제공된 코드는 GZIP과 NCD (Normalized Compression Distance)를 유사성 지표로 사용하고, k-NN (k-Nearest Neighbors)을 분류에 사용
- GZIP은 개별 데이터 포인트의 복잡성 또는 정보 내용을 측정하는 도구로 사용되며, NCD는 두 데이터 포인트가 얼마나 유사한지의 정규화된 측정치를 제공
- 알고리즘은 모든 훈련 샘플과 NCD를 계산하고, 이를 정렬하며, k개의 가장 작은 거리를 선택. 이 k=5 가장 가까운 이웃 중 다수 클래스가 테스트 샘플의 레이블로 예측됨
- 저자는 이 접근 방식이 계산적으로 비싸며, 정확도 측정을 위해 테스트 이미지의 일부만 사용되었다는 것을 인정
- 저자는 더 나은 이해를 위해 알고리즘의 덜 숨겨진 버전도 제공
- 저자는 2019년 Andreas Kirsch가 취한 유사한 접근 방식을 언급, 이는 약 35%의 정확도를 달성
- 저자는 데이터 압축에서 텍스트 생성에 대한 게시물을 읽고, 매개 변수가 없는 텍스트 분류에 대한 논문을 읽은 후 이미지 분류 메커니즘으로 압축을 사용하게 됨
- 저자는 이전에 에지 컴퓨터 비전을 위한 이미지 압축에 작업하였고, 이 기술을 MNIST 데이터셋에 적용하는 데 관심이 있었음
Hacker News 의견
- GZIP을 사용하여 MNIST 데이터셋에서 10줄 미만의 코드로 78%의 정확도 달성에 대한 기사
- 댓글 작성자들이 코드에서 거리 함수를 더 간단한 측정법으로 대체해 봤으며, 이로 인해 정확도가 향상되고 계산 요구량이 줄어듬
- 유클리드 거리는 이미지를 이진화한 후 약 0.5초 만에 93%의 정확도를 달성
- 자카드 거리는 이미지를 이진화한 후 약 0.7초 만에 94%의 정확도를 달성
- 다이스 불일치는 이미지를 이진화한 후 약 0.8초 만에 94%의 정확도를 달성
- 비교를 위한 다른 기술에는 Linear SVC가 92%의 정확도, SVC rbf가 96.4%의 정확도, SVC poly가 94.5%의 정확도, 로지스틱 회귀가 89%의 정확도, 그리고 나이브 베이즈가 81%의 정확도를 보임
- 댓글 작성자들은 코드가 우아하고 간결할지라도, MNIST에 대해 78%의 정확도는 낮게 여겨지며, Tensorflow로 작성된 더미 모델이 쉽게 90%의 정확도를 달성한다고 제안
- MNIST에 대한 최고의 모델은 99.87%의 정확도로 순위가 매겨짐
- 일부 댓글 작성자들은 정규화된 압축 거리(NCD)를 유클리드 거리로 대체하면 테스트 정확도가 15% 증가하고 많은 계산을 절약할 수 있다고 제안
- 일부 댓글 작성자들은 MNIST 데이터셋이 은퇴해야 한다고 제안하며, 이는 그 위에서 높은 정확도를 달성하는 것이 상대적으로 쉬워졌기 때문
- 고도로 압축된 데이터에서 패턴을 찾아 더 나은 압축을 위한 잠재력에 대한 논의가 있음
- 일부 댓글 작성자들은 일반 목적의 압축기와 대체 언어 모델에 대한 정보 거리 측정에 관심이 있음
- 한 댓글 작성자는 후보 시퀀스 간의 이산 합성곱과 함께 정규화된 압축 거리(gzip)를 결합하는 주의 메커니즘을 사용하는 것에 대해 언급