▲GN⁺ 2024-02-17 | parent | ★ favorite | on: Magika: AI를 활용한 빠르고 효율적인 파일 유형 식별도구 오픈소스(opensource.googleblog.com)Hacker News 의견 새로운 파일 타입 감지 도구를 웹 크롤 데이터에 적용해봄. 간단한 HTML 파일을 잘못 감지하는 경우 발생. WOFF, WOFF2 파일도 일부 잘못 감지됨. 자동화에는 아직 신뢰할 수 없는 구현이라고 평가. 출력이 파이프일 때 쉘 색상 이스케이프를 제거하지 않는 것에 대한 불만도 표현. 10년 전 스프레드시트 파일 타입 감지에 대한 경험 공유. "magic"을 이용해 파일 타입을 감지하는 패치를 제안했으나 거절당함. 현재는 딥러닝을 이용한 파일 타입 감지에 대해 언급. 구글이 성능 벤치마크를 공개하기를 바람. 100개 파일에 대한 감지 테스트 결과 공유. 대부분 정확하게 감지했으나, 일부는 잘못 감지하거나 불분명한 타입으로 감지. Magika가 지원하지 않는 파일 타입에서 주로 오류 발생. 기존의 file 유틸리티와 비교하여 비슷한 정확도를 보임. 파일 타입 감지 분야에 새로운 도구가 등장한 것에 대한 긍정적 반응. Node 모듈의 출시 이유에 대한 의문 제기. 문서에서 속도가 느리다고 언급하고, 모델을 런타임에 로드함. 실험적인 표시와 제한된 파일 타입 지원에 대한 언급. 구글이 libmagic 개선 대신 신경망 기반의 파일 타입 감지 도구 개발에 자원을 투입한 것에 대한 혼란. 신경망이 더 정확하지만 지원하는 파일 타입이 적고, 적대적 상황에서는 효과가 떨어짐을 지적. 다양한 형식으로 유효한 폴리글롯 파일의 감지 방법에 대한 궁금증. 실제 테스트 결과, ZIP 레이어만 감지됨을 언급. APK나 JAR 파일의 정확한 감지에 대한 다른 도구들의 정밀도나 재현율에 대한 의문 제기. 특정 파일이 정밀도나 재현율에 영향을 미친 사례에 대한 설명 요구. Racket에서 libmagic 구현 경험 공유. libmagic이 더 많은 파일 타입을 감지하지만, Magika가 텍스트 파일 감지에 유용할 수 있음을 언급. 파일 타입 감지가 본질적으로 결정론적이라는 주장. "매직 바이트"가 일관되어야 하며, 휴리스틱이나 확률적 추론의 필요성에 대한 의문 제기.
Hacker News 의견
새로운 파일 타입 감지 도구를 웹 크롤 데이터에 적용해봄.
10년 전 스프레드시트 파일 타입 감지에 대한 경험 공유.
100개 파일에 대한 감지 테스트 결과 공유.
file유틸리티와 비교하여 비슷한 정확도를 보임.파일 타입 감지 분야에 새로운 도구가 등장한 것에 대한 긍정적 반응.
구글이 libmagic 개선 대신 신경망 기반의 파일 타입 감지 도구 개발에 자원을 투입한 것에 대한 혼란.
다양한 형식으로 유효한 폴리글롯 파일의 감지 방법에 대한 궁금증.
APK나 JAR 파일의 정확한 감지에 대한 다른 도구들의 정밀도나 재현율에 대한 의문 제기.
Racket에서 libmagic 구현 경험 공유.
파일 타입 감지가 본질적으로 결정론적이라는 주장.