Machine Learning con PySpark
Andrew Collier
Data Scientist, Fathom Data

Linguaggi per interagire con Spark.
Da Python importa il modulo pyspark.
import pyspark
Controlla la versione del modulo pyspark.
pyspark.__version__
'2.4.1'
Oltre a pyspark ci sono:
pyspark.sqlpyspark.streamingpyspark.mllib (deprecato) e pyspark.mlCluster remoto con Spark URL — spark://<IP address | DNS name>:<port>
Esempio:
spark://13.59.151.161:7077Cluster locale
Esempi:
local — 1 core;local[4] — 4 core; oppurelocal[*] — tutti i core disponibili.from pyspark.sql import SparkSession
Crea un cluster locale con il builder di SparkSession.
spark = SparkSession.builder \
.master('local[*]') \
.appName('first_spark_application') \
.getOrCreate()
Interagisci con Spark...
# Chiudi la connessione a Spark
>>> spark.stop()
Machine Learning con PySpark