Machine Learning met PySpark
Andrew Collier
Data Scientist, Fathom Data

Talen om met Spark te werken.
Importeer in Python de module pyspark.
import pyspark
Controleer de versie van de module pyspark.
pyspark.__version__
'2.4.1'
Naast pyspark zijn er:
pyspark.sqlpyspark.streamingpyspark.mllib (verouderd) en pyspark.mlRemote cluster via Spark-URL — spark://<IP address | DNS name>:<port>
Voorbeeld:
spark://13.59.151.161:7077Lokale cluster
Voorbeelden:
local — slechts 1 core;local[4] — 4 cores; oflocal[*] — alle beschikbare cores.from pyspark.sql import SparkSession
Maak een lokale cluster met een SparkSession-builder.
spark = SparkSession.builder \
.master('local[*]') \
.appName('first_spark_application') \
.getOrCreate()
Werk met Spark...
# Verbreek de verbinding met Spark
>>> spark.stop()
Machine Learning met PySpark