Introduzione a PySpark
Benjamin Schmidt
Data Engineer
Usato PySpark per Machine Learning, ETL e molto altro
Insegnante appassionato di nuovi strumenti per tutti!
-
Elaborazione dati distribuita: Progettata per gestire grandi dataset su cluster
Supporta vari formati dati inclusi CSV, Parquet e JSON
Integrazione SQL permette di interrogare i dati usando sia Python che SQL
Ottimizzato per velocità su larga scala

Analisi di big data
Elaborazione dati distribuita
Streaming dati in tempo reale
Machine learning su grandi dataset
Pipeline ETL ed ELT
Lavorare con fonti dati diverse:


# Importa SparkSession
from pyspark.sql import SparkSession
# Inizializza una SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()
$$
.builder() imposta una sessionegetOrCreate() crea o recupera una sessione.appName() aiuta a gestire più sessioni# Importa e inizializza una sessione Spark
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()
# Crea un DataFrame
census_df = spark.read.csv("census.csv",
["gender","age","zipcode","salary_range_usd","marriage_status"])
# Mostra il DataFrame
census_df.show()
Introduzione a PySpark