9P by xguru 2020-10-14 | favorite | 댓글 1개

- 대규모 조직들은 내부의 데이터 검색 및 메타데이터 엔진을 별도로 구축
ㅤ→ Netflix(Metacat), Lyft(Amundsen), Linkedin(DataHub), Uber(Databook)
ㅤ→ 어떤 데이터들을 누가/언제/검색/생성 하였는지 등의 메타데이터를 검색해서 재사용을 쉽게 해주는 플랫폼
- Hive, Scuba, Cubrick 및 여러 대시보드와 AI 데이터셋등을 통합
- 소셜그래프 검색에 사용하는 Unicorn 을 이용
- spaCy 를 이용해서 자연어 쿼리 가능 : "Instagram에 WAU(주간 활성 사용자)가 몇 명입니까?"

Nemo 는 오픈소스로는 공개하지는 않았고, 다른 회사의 도구들은 오픈소스로 공개되어 있습니다.

Lyft - Amundsen https://github.com/amundsen-io/amundsen
Netflix - Metacat https://github.com/Netflix/metacat
Linkedin - DataHub https://github.com/linkedin/datahub