Principes fondamentaux des mégadonnées avec PySpark
Upendra Devisetty
Science Analyst, CyVerse
Chapitre 1 : Notions de base du Big Data et introduction à Spark comme framework de calcul distribué
Composants clés : Spark Core et bibliothèques intégrées — Spark SQL, Spark MLlib, GraphX et Spark Streaming
PySpark : API Python d’Apache Spark pour exécuter des jobs Spark
Shell PySpark : pour développer des applications interactives en Python
Modes Spark : local et cluster
Chapitre 2 : Introduction aux RDD, caractéristiques, méthodes de création et opérations RDD (transformations et actions)
Chapitre 3 : Introduction à Spark SQL, abstraction DataFrame, création de DataFrames, opérations et visualisation de Big Data via DataFrames
Chapitre 4 : Introduction à Spark MLlib, les trois C du Machine Learning (collaborative filtering, classification et clustering)
Principes fondamentaux des mégadonnées avec PySpark