Fundamentos de Big Data com PySpark
Upendra Devisetty
Science Analyst, CyVerse
Capítulo 1: Fundamentos de Big Data e introdução ao Spark como framework de computação distribuída
Componentes principais: Spark Core e bibliotecas nativas — Spark SQL, Spark MLlib, GraphX e Spark Streaming
PySpark: API Python do Apache Spark para executar jobs no Spark
Shell do PySpark: para desenvolver apps interativas em Python
Modos do Spark: local e cluster
Capítulo 2: Introdução a RDDs, recursos de RDDs, criação de RDDs e operações (Transformations e Actions)
Capítulo 3: Introdução ao Spark SQL, abstração DataFrame, criação de DataFrames, operações e visualização de Big Data com DataFrames
Capítulo 4: Introdução ao Spark MLlib, os três Cs de Machine Learning (Collaborative Filtering, Classification e Clustering)
Fundamentos de Big Data com PySpark