▲GN⁺ 2024-07-06 | parent | ★ favorite | on: Jaccard 유사도와 MinHash를 이용한 유사 중복 탐지(blog.nelhage.com)Hacker News 의견 Jaccard 유사도와 F1 점수는 퍼지 집합에서도 동일하게 사용할 수 있음 퍼지 집합에서는 적절한 T-Norm/T-Conorm 쌍을 선택해야 함 이 방법은 의료 이미지 분할 검증에 유용함 대부분의 사람들은 0.5로 임계값을 설정해 이진 집합을 사용함 이는 검증 연산자의 정밀도를 크게 감소시킴 Python으로 프랑스 정부 데이터베이스의 중복 제거를 구현한 경험이 있음 현재는 datasketch를 추천함 rensa라는 새로운 도구도 있음 rensa는 Rust로 작성된 더 빠른 버전임 Google 초기에 중복 제거를 위해 개발된 기술임 Jeffrey Ullman의 "Mining Massive Datasets"에서 자세히 설명됨 이 기술은 AltaVista에서 처음 개발됨 Minhash 시스템을 구현한 경험이 있음 큰 행렬의 부분 행렬의 (유사) 역행렬을 찾는 문제를 해결함 Minhashing을 사용해 유사한 행렬을 찾음 다중 해상도 해시를 사용해 검색 선택성을 조정함 Minhash와 그 변형을 이해하기 어려워 시각화 도구를 개발 중임 Jaccard 유사도 계산을 포함할 예정임 코드 예제를 통해 기술을 이해하는 것이 더 쉬움 Google의 Douglas Eck로부터 이 기술을 배움 노래 클러스터링에 사용됨 NVIDIA 팀이 GPU 가속 퍼지 중복 제거 알고리즘을 출시함 GitHub 저장소와 문서 제공 Python 예제도 포함됨 해싱 또는 작은 신경망과 벡터 검색 엔진을 결합한 중복 제거 전략이 일반적임 Google의 RETSim 모델과 USearch 엔진 프로젝트가 있음 저자에게 오타를 지적함 S(A,B) 대신 S(A,C)여야 함 Postgres에서 유사한 뉴스 항목을 하나로 줄이는 문제를 해결 중임 600,000개의 피드 항목이 있음 내용과 요약이 매우 유사함
Hacker News 의견
Jaccard 유사도와 F1 점수는 퍼지 집합에서도 동일하게 사용할 수 있음
Python으로 프랑스 정부 데이터베이스의 중복 제거를 구현한 경험이 있음
Google 초기에 중복 제거를 위해 개발된 기술임
Minhash 시스템을 구현한 경험이 있음
Minhash와 그 변형을 이해하기 어려워 시각화 도구를 개발 중임
코드 예제를 통해 기술을 이해하는 것이 더 쉬움
NVIDIA 팀이 GPU 가속 퍼지 중복 제거 알고리즘을 출시함
해싱 또는 작은 신경망과 벡터 검색 엔진을 결합한 중복 제거 전략이 일반적임
저자에게 오타를 지적함
Postgres에서 유사한 뉴스 항목을 하나로 줄이는 문제를 해결 중임