Introductie tot PySpark
Benjamin Schmidt
Data Engineer
PySpark gebruikt voor Machine Learning, ETL-taken en meer
Enthousiaste leraar van nieuwe tools voor iedereen!
-
Gedistribueerde dataverwerking: Ontworpen voor grote datasets over clusters
Ondersteunt verschillende dataformaten zoals CSV, Parquet en JSON
SQL-integratie voor dataquery's met Python en SQL-syntaxis
Geoptimaliseerd voor snelheid op schaal

Big data-analyse
Gedistribueerde dataverwerking
Realtime datastreaming
Machine learning op grote datasets
ETL en ELT pipelines
Werken met diverse databronnen:


# Importeer SparkSession
from pyspark.sql import SparkSession
# Start een SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()
$$
.builder() stelt een sessie ingetOrCreate() maakt of haalt een sessie op.appName() beheert meerdere sessies# Importeer en start een Spark-sessie
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()
# Maak een DataFrame
census_df = spark.read.csv("census.csv",
["gender","age","zipcode","salary_range_usd","marriage_status"])
# Toon het DataFrame
census_df.show()
Introductie tot PySpark