Verbinding maken met Spark

Machine Learning met PySpark

Andrew Collier

Data Scientist, Fathom Data

Werken met Spark

Logo's voor Java, Scala, Python en R.

Talen om met Spark te werken.

  • Java — low-level, gecompileerd
  • Scala, Python en R — high-level met interactieve REPL
Machine Learning met PySpark

pyspark importeren

Importeer in Python de module pyspark.

import pyspark

Controleer de versie van de module pyspark.

pyspark.__version__
'2.4.1'
Machine Learning met PySpark

Submodules

Naast pyspark zijn er:

Machine Learning met PySpark

Spark-URL

Remote cluster via Spark-URL — spark://<IP address | DNS name>:<port>

Voorbeeld:

  • spark://13.59.151.161:7077

Lokale cluster

Voorbeelden:

  • local — slechts 1 core;
  • local[4] — 4 cores; of
  • local[*] — alle beschikbare cores.
Machine Learning met PySpark

Een SparkSession maken

from pyspark.sql import SparkSession

Maak een lokale cluster met een SparkSession-builder.

spark = SparkSession.builder \
                    .master('local[*]') \
                    .appName('first_spark_application') \
                    .getOrCreate()

Werk met Spark...

# Verbreek de verbinding met Spark
>>> spark.stop()
Machine Learning met PySpark

Laten we verbinding maken met Spark!

Machine Learning met PySpark

Preparing Video For Download...