Hacker News 의견
  • Jaccard 유사도와 F1 점수는 퍼지 집합에서도 동일하게 사용할 수 있음

    • 퍼지 집합에서는 적절한 T-Norm/T-Conorm 쌍을 선택해야 함
    • 이 방법은 의료 이미지 분할 검증에 유용함
    • 대부분의 사람들은 0.5로 임계값을 설정해 이진 집합을 사용함
    • 이는 검증 연산자의 정밀도를 크게 감소시킴
  • Python으로 프랑스 정부 데이터베이스의 중복 제거를 구현한 경험이 있음

    • 현재는 datasketch를 추천함
    • rensa라는 새로운 도구도 있음
    • rensa는 Rust로 작성된 더 빠른 버전임
  • Google 초기에 중복 제거를 위해 개발된 기술임

    • Jeffrey Ullman의 "Mining Massive Datasets"에서 자세히 설명됨
    • 이 기술은 AltaVista에서 처음 개발됨
  • Minhash 시스템을 구현한 경험이 있음

    • 큰 행렬의 부분 행렬의 (유사) 역행렬을 찾는 문제를 해결함
    • Minhashing을 사용해 유사한 행렬을 찾음
    • 다중 해상도 해시를 사용해 검색 선택성을 조정함
  • Minhash와 그 변형을 이해하기 어려워 시각화 도구를 개발 중임

    • Jaccard 유사도 계산을 포함할 예정임
  • 코드 예제를 통해 기술을 이해하는 것이 더 쉬움

    • Google의 Douglas Eck로부터 이 기술을 배움
    • 노래 클러스터링에 사용됨
  • NVIDIA 팀이 GPU 가속 퍼지 중복 제거 알고리즘을 출시함

    • GitHub 저장소와 문서 제공
    • Python 예제도 포함됨
  • 해싱 또는 작은 신경망과 벡터 검색 엔진을 결합한 중복 제거 전략이 일반적임

    • Google의 RETSim 모델과 USearch 엔진 프로젝트가 있음
  • 저자에게 오타를 지적함

    • S(A,B) 대신 S(A,C)여야 함
  • Postgres에서 유사한 뉴스 항목을 하나로 줄이는 문제를 해결 중임

    • 600,000개의 피드 항목이 있음
    • 내용과 요약이 매우 유사함