14P by xguru 2020-10-19 | favorite | 댓글 4개

- 데이터 전문가들을 인터뷰하여 정리한 최신 데이터 인프라스트럭처 관련 정보 및 용어 설명
- 데이터 분야 전반을 이해하기에 정말 좋은 6장짜리 PDF
ㅤ1장으로 보는 통합 데이터 인프라 개념도
ㅤ1. Sources : 비즈니스 및 운영 데이터를 생성
ㅤㅤ→ㅤOLTP DB via *CDC
ㅤㅤ→ㅤApplications/ERP(Oracle,Salesforce,Netsuite) : 비즈니스에서 발생하는 모든 데이터
ㅤㅤ→ㅤEvent 수집기(Segment,Snowplow) : 서비스 사용자의 모든 이벤트를 수집
ㅤㅤ→ㅤLogs : 웹서버 및 각종 서버들의 로그
ㅤㅤ→ㅤ써드파티 API(Stripe등) : 결제 및 기타 사용API 들에서 발생되는 데이터
ㅤㅤ→ㅤ파일과 객체 스토리지
ㅤ2. Ingestion and Transformation : 요즘은 ETL to ELT, Extract / Load / Transform
ㅤㅤ운영시스템에서 데이터 추출(E) / 저장소로 옮기고(L) / 데이터를 분석용으로 변환(T)
ㅤㅤ→ㅤConnector(Fivetran, Stitch, Matillion) : 여러 소스에서 DW로 데이터를 옮기는 도구
ㅤㅤ→ㅤData Modeling (dbt, LookML) : 데이터 모델링 및 변환
ㅤㅤ→ㅤWorkflow Manager (Airflow, Dagster, Prefect) : 데이터 흐름 자동화를 위한 오케스트레이터 / 스케줄러
ㅤㅤ→ㅤSpark Platform (Databricks, Amazon EMR) : 분산처리를 위한 고성능 클러스터링 플랫폼
ㅤㅤ→ㅤPython Libs : 데이터분석 라이브러리 - Pandas, AWS 인터페이스 - Boto, 대용량 병렬처리용 Dask, 분산처리용 Ray..
ㅤㅤ→ㅤBatch Query Engine (Hive) : 빅데이터 쿼리
ㅤㅤ→ㅤEvent Streaming (Confluent/Kafka, Pulsar, AWS Kinesis) : 실시간 메시징/스트리밍 플랫폼
ㅤㅤ→ㅤStream Processing (Databricks/Spark, Confluent/Kafka, Flink) : 스트리밍 데이터를 수집/처리 및 분석
ㅤ3. Storage : 쿼리 및 처리가능한 형태로 데이터를 저장. 저비용, 확장성 및 분석작업에 대해 최적화.
ㅤㅤ→ㅤData Warehouse ( Snowflake, BigQuery, Redshift ) : 분석 가능한 정보들을 모은 데이터 통합 저장소
ㅤㅤ→ㅤData Lake : DW와 달리 정제하지 않은 정형/비정형 원시데이터를 저장
ㅤㅤㅤㅤㅤDatabricks/Delta Lake(Spark와 S3/HDFS 등에 ACID 트랜잭션이 가능하게하는 데이터 레이크),
ㅤㅤㅤㅤㅤApache Iceberg(페타단위를 저장하는 초대형 테이블 포맷, Netflix가 개발),
ㅤㅤㅤㅤㅤApache Hudi(효율적인 데이터 레이크, Uber가 개발), Hive Acid
ㅤㅤ→ㅤApache Parquet - 컬럼기반 저장 포맷
ㅤㅤㅤㅤApache ORC - Optimized Row Columnar, 컬럼단위로 기록하며 인덱스도 함께 기록
ㅤㅤㅤㅤApache Avro - 로우단위 기록, 쓰기에 적합, 스키마 진화에 적합
ㅤㅤ→ㅤAWS S3(Simple Storage Service), GCS(Google Cloud Storage), ABS(Azure Blob Storage), HDFS(Hadoop Distributed File System)
ㅤ4&5. Historical & Predictive : 분석가 및 데이터 사이언티스트가 인사이트를 도출하기 위한 인터페이스(쿼리)를 제공
ㅤㅤ Historical : 과거에 무슨일이 일어났나를 설명. 아주 최근(거의 실시간) 포함
ㅤㅤ Predictive : 미래 예측, 데이터기반/ML 어플리케이션
ㅤㅤ→ㅤData Science Platform (Databricks, Domino, Sagemaker, Dataiku, DataRobot, Anaconda, ...)
ㅤㅤ→ㅤData Science and ML Libraries ((Pandas, Numpy, R, Dask, Ray, Spark, Scikit-learn, Pytorch, TensorFlow, Spark ML, XGBoost, )
ㅤㅤ→ㅤAd Hoc Query Engine (Presto, Dremio/Drill, Impala)
ㅤㅤ→ㅤReal-time Analytics : Imply/Druid - 실시간 분석, Altinity/Clickhouse - OLAP, Rockset - 상용 실시간분석엔진(고성능 KV 임베디드 DB인 RocksDB 기반)
ㅤ6. Output : 데이터 분석 결과를 내/외부에 보여주는 도구. 만들어진 데이터 모델을 운영시스템과 어플리케이션에 임베드
ㅤㅤ→ㅤDashboards : Looker, Apache Superset, Mode, Tableau - Business Inteligence 도구
ㅤㅤ→ㅤEmbedded Analytics : Sisense, Looker, cube.js - BI 도구를 내부 시스템에 임베드. API 기반. 내부 분석앱을 생성가능
ㅤㅤ→ㅤAugmented Analytics : Thoughtspot, Outlier, Anodot, Sisu - AI를 이용해서 알아서 분석해주는 도구
ㅤㅤ→ㅤApp Frameworks : Plotly Dash, Streamlit - ML App을 만들수 있게 해주는 프레임워크

ㅤ7. 그외
ㅤㅤ→ㅤMetadata Management (Collibra, Alation, Hive Metastore, DataHub, ...)
ㅤㅤ→ㅤQuality and Testing (Great Expectations)
ㅤㅤ→ㅤEntitlements and Security (Privacera, Immuta)
ㅤㅤ→ㅤObservability (Unravel, Accel Data, Fiddler)

2. 세가지 주요 분야별 블루프린트
ㅤ→ 최신 비즈니스 인텔리전스(BI)
ㅤ→ 멀티모달 데이터 프로세싱
ㅤ→ AI 와 ML 분야

* Change Data Capture : OLTP의 변경 데이터를 실시간으로 다양한 다른 저장소(DB,DW)에 복사

여기에 나온 각 서비스와 오픈소스들을 하나하나 설명하는 유튜브 동영상을 찍어봤습니다.
회차당 10여분 정도로 나누어져 있으니, 위의 내용을 좀 더 자세히 알고싶으실때 참고해주세요

최신 데이터 인프라 이해하기 by GeekNews
- https://youtube.com/playlist/?list=PLL-_zEJctPoJ92HmbGxFv1Pv_ugsggGD2

번역본 링크가 잘못되었습니다 ㅎㅎ; 아래 링크를 참고해 주십시오 ^^;

https://drive.google.com/file/d/…

우왕 고맙습니다. 저도 이 자료 넘 좋아서 메인 도표의 별도 설명자료(동영상)을 만들어 보고 있어요.

https://drive.google.com/file/d/…

내용이 좋아 보여서, 원문을 간략하게 번역해 보았습니다 ^^