최신 데이터 인프라 이해하기 #5 - Spark와 RDD, 파이썬 라이브러리
2020-12-02
"최신 데이터 인프라"를 조금 쉽게 이해할 수 있도록 설명하는 시리즈 동영상
5화에서는 Apache Spark와 RDD, 각종 Python 라이브러리들과 Hive에 대해 설명합니다.
#5 : Spark, Python, Hive
- 0:00 #5 : 데이터 인프라의 핵심 - Spark Platform
- 0:38 Spark 와 Workflow 매니저
- 1:40 Pandas - https://pandas.pydata.org/
- 2:31 DataFrame
- 4:50 Boto3 - https://github.com/boto/boto3
- 5:18 Dask - https://dask.org/
- 6:21 Ray - https://ray.io/
- 7:48 Apache Spark - https://spark.apache.org/
- 8:30 Spark vs. Hadoop
- 9:47 Spark의 핵심은 무엇일까 ?
- 10:04 RDD - Resilient Distributed Datasets
- 12:23 Lazy Execution
- 13:42 Spark SQL, Streaming, MLLib, GraphX
- 14:30 RDD - DataFrame - DataSet
- 15:30 Databricks - https://databricks.com/
- 16:13 Spark vs. Databricks
- 16:47 Azure Databricks
- 17:07 Databricks on AWS
- 17:45 Amazon EMR - https://aws.amazon.com/ko/emr/
- 18:17 EMR vs. Databricks
- 18:39 Hive - https://hive.apache.org/
다음 편에서는 Kafka & Pulsar 같은 Streaming Platform 들을 설명할 예정입니다.
좋아요와 구독 부탁드려요! 궁금하신점은 유튜브 댓글에 남겨주세요.