2021년 5가지 데이터 트렌드
(towardsdatascience.com)1. 데이터 레이크와 웨어하우스의 통합, Data Lakehouse
2. "최신 데이터 스택"이 주류로 부상 : 클라우드 기반 주요 도구들의 연동
ㅤ→ Data Ingestion : Fivetran, Stitch, Hevodata
ㅤ→ Data Warehouse : Snowflake, BigQuery
ㅤ→ Data Lake : Amazon S3
ㅤ→ Data Lake Processing : Presto, Dremio, Databricks, Starburst
ㅤ→ Data Transformation : dbt, Matillion
ㅤ→ Metadata Management : Atlan
ㅤ→ BI Tools : Looker
3. 메타 데이터 3.0 : 메타데이터 관리의 재탄생
ㅤ→ 데이터 디스커버리, 데이터 카탈로그, 데이터 리니지, Observability 등을 처리하기 위한 도구들이 부상할 것
4. 새로운 직종의 부상
ㅤ→ Data Platform Leader : 조직내에서 데이터 플랫폼을 업무에 적용하는걸 도와주는 리더
ㅤ→ Analytics Engineer : dbt 같은 도구의 출현으로 분석뿐만 아니라 데이터 스택을 조작하는 분석 엔지니어가 가능해짐
5. 데이터 품질 프레임워크들의 부상
ㅤ→ 데이터 프로파일링 : 데이터를 검토, 품질을 확인, 향후 사용방법을 식별
ㅤ→ 비즈니스 중심의 데이터 품질 규칙 정의
ㅤ→ 데이터 파이프라인 상에서 품질 테스트의 도입 : Amazon Deequ, Great Expectations
2번의 "최신 데이터 스택"은 긱뉴스 유튜브에서 "최신 데이터 인프라 이해하기" 시리즈 를 참고하세요 ;)
https://youtube.com/playlist/?list=PLL-_zEJctPoJ92HmbGxFv1Pv_ugsggGD2
3번과 5번도 시리즈 후반에 다루게 될 것 같습니다.
"최신 데이터 인프라 이해하기" 시리즈가 올라올 때 마다 잘 듣고 있습니다.
매일 사용하는 것만 사용하다보니 새로운 흐름에 대해서 접하기 어려운데 잘 설명해주셔서 감사합니다.