Jaccard 유사도와 MinHash를 이용한 유사 중

▲

GN⁺ 2024-07-06 | parent | ★ favorite | on: Jaccard 유사도와 MinHash를 이용한 유사 중복 탐지(blog.nelhage.com)

Hacker News 의견

Jaccard 유사도와 F1 점수는 퍼지 집합에서도 동일하게 사용할 수 있음
- 퍼지 집합에서는 적절한 T-Norm/T-Conorm 쌍을 선택해야 함
- 이 방법은 의료 이미지 분할 검증에 유용함
- 대부분의 사람들은 0.5로 임계값을 설정해 이진 집합을 사용함
- 이는 검증 연산자의 정밀도를 크게 감소시킴
Python으로 프랑스 정부 데이터베이스의 중복 제거를 구현한 경험이 있음
- 현재는 datasketch를 추천함
- rensa라는 새로운 도구도 있음
- rensa는 Rust로 작성된 더 빠른 버전임
Google 초기에 중복 제거를 위해 개발된 기술임
- Jeffrey Ullman의 "Mining Massive Datasets"에서 자세히 설명됨
- 이 기술은 AltaVista에서 처음 개발됨
Minhash 시스템을 구현한 경험이 있음
- 큰 행렬의 부분 행렬의 (유사) 역행렬을 찾는 문제를 해결함
- Minhashing을 사용해 유사한 행렬을 찾음
- 다중 해상도 해시를 사용해 검색 선택성을 조정함
Minhash와 그 변형을 이해하기 어려워 시각화 도구를 개발 중임
- Jaccard 유사도 계산을 포함할 예정임
코드 예제를 통해 기술을 이해하는 것이 더 쉬움
- Google의 Douglas Eck로부터 이 기술을 배움
- 노래 클러스터링에 사용됨
NVIDIA 팀이 GPU 가속 퍼지 중복 제거 알고리즘을 출시함
- GitHub 저장소와 문서 제공
- Python 예제도 포함됨
해싱 또는 작은 신경망과 벡터 검색 엔진을 결합한 중복 제거 전략이 일반적임
- Google의 RETSim 모델과 USearch 엔진 프로젝트가 있음
저자에게 오타를 지적함
- S(A,B) 대신 S(A,C)여야 함
Postgres에서 유사한 뉴스 항목을 하나로 줄이는 문제를 해결 중임
- 600,000개의 피드 항목이 있음
- 내용과 요약이 매우 유사함