최신 데이터 인프라 이해하기 #5 - Spark와 RDD, 파이썬 라이브러리

2020-12-02

"최신 데이터 인프라"를 조금 쉽게 이해할 수 있도록 설명하는 시리즈 동영상

5화에서는 Apache Spark와 RDD, 각종 Python 라이브러리들과 Hive에 대해 설명합니다.

#5 : Spark, Python, Hive

  • 0:00 #5 : 데이터 인프라의 핵심 - Spark Platform
  • 0:38 Spark 와 Workflow 매니저
  • 1:40 Pandas - https://pandas.pydata.org/
  • 2:31 DataFrame
  • 4:50 Boto3 - https://github.com/boto/boto3
  • 5:18 Dask - https://dask.org/
  • 6:21 Ray - https://ray.io/
  • 7:48 Apache Spark - https://spark.apache.org/
  • 8:30 Spark vs. Hadoop
  • 9:47 Spark의 핵심은 무엇일까 ?
  • 10:04 RDD - Resilient Distributed Datasets
  • 12:23 Lazy Execution
  • 13:42 Spark SQL, Streaming, MLLib, GraphX
  • 14:30 RDD - DataFrame - DataSet
  • 15:30 Databricks - https://databricks.com/
  • 16:13 Spark vs. Databricks
  • 16:47 Azure Databricks
  • 17:07 Databricks on AWS
  • 17:45 Amazon EMR - https://aws.amazon.com/ko/emr/
  • 18:17 EMR vs. Databricks
  • 18:39 Hive - https://hive.apache.org/

다음 편에서는 Kafka & Pulsar 같은 Streaming Platform 들을 설명할 예정입니다.
좋아요와 구독 부탁드려요! 궁금하신점은 유튜브 댓글에 남겨주세요.

긱뉴스 팟캐스트 구독하기