Connessione a Spark

Machine Learning con PySpark

Andrew Collier

Data Scientist, Fathom Data

Interagire con Spark

Loghi di Java, Scala, Python e R.

Linguaggi per interagire con Spark.

  • Java — basso livello, compilato
  • Scala, Python e R — alto livello con REPL interattiva
Machine Learning con PySpark

Importare pyspark

Da Python importa il modulo pyspark.

import pyspark

Controlla la versione del modulo pyspark.

pyspark.__version__
'2.4.1'
Machine Learning con PySpark

Sottomoduli

Oltre a pyspark ci sono:

Machine Learning con PySpark

Spark URL

Cluster remoto con Spark URL — spark://<IP address | DNS name>:<port>

Esempio:

  • spark://13.59.151.161:7077

Cluster locale

Esempi:

  • local — 1 core;
  • local[4] — 4 core; oppure
  • local[*] — tutti i core disponibili.
Machine Learning con PySpark

Creare una SparkSession

from pyspark.sql import SparkSession

Crea un cluster locale con il builder di SparkSession.

spark = SparkSession.builder \
                    .master('local[*]') \
                    .appName('first_spark_application') \
                    .getOrCreate()

Interagisci con Spark...

# Chiudi la connessione a Spark
>>> spark.stop()
Machine Learning con PySpark

Connettiamoci a Spark!

Machine Learning con PySpark

Preparing Video For Download...