Zingg - 데이터 통합을 위한 Scalable 퍼지매칭 오픈소스
(github.com)- 분석 엔지니어가 다양한 데이터 Silo들을 연동해서 통합된 뷰를 작성하는 것이 가능
ㅤ→ Data Unification을 위한 No Code ML 도구
- 왜 필요한가?
ㅤ→ 실제 데이터에선 한 고객당 여러개의 레코드가 존재함
ㅤ→ 각 레코드가 단일/멀티 시스템에 분산되어 있어서 데이터가 커지면 고객 분석이 어려워짐
ㅤ→ ELT에서 T는 노력이 많이 들고, dbt 같은 도구가 이런걸 성공적으로 처리하긴 함
ㅤ→ 빠르고 확장가능한 방법으로, 주요 비즈니스 객체에 대해서 추출 또는 로딩 전에 "Single Source of Truth 를 만드는게 필요"함
- 유용한 케이스
ㅤ→ 다중 시스템에 있는 고객 들의 통합/신뢰가능한 뷰 작성
ㅤ→ AML/KYC 등의 대규모 엔티티 확인
ㅤ→ 중복 제거 및 데이터 품질
ㅤ→ 데이터 Silo 의 병합
ㅤ→ 외부 소스 데이터의 Enrichment
- 지원 소스
ㅤ→ Snowflake, Cassandra, S3, Azure, Elastic, 주요 RDMBS 및 Spark 지원 데이터 소스들
ㅤ→ Parquet, Avro, JSON, XLSX, CSV, TSV 등의 파일도 지원