Fundamentos de big data con PySpark
Upendra Devisetty
Science Analyst, CyVerse
Capítulo 1: Fundamentos de Big Data e introducción a Spark como framework de computación distribuida
Componentes clave: Spark Core y librerías integradas: Spark SQL, Spark MLlib, GraphX y Spark Streaming
PySpark: API de Python de Apache Spark para ejecutar trabajos en Spark
Consola de PySpark: para desarrollar aplicaciones interactivas en Python
Modos de Spark: local y clúster
Capítulo 2: Introducción a los RDD, sus características, creación de RDD y operaciones (transformaciones y acciones)
Capítulo 3: Introducción a Spark SQL, DataFrame como abstracción, creación de DataFrames, operaciones y visualización de Big Data con DataFrames
Capítulo 4: Introducción a Spark MLlib y las tres C del aprendizaje automático (filtrado colaborativo, clasificación y clustering)
Fundamentos de big data con PySpark