Machine Learning dengan PySpark
Andrew Collier
Data Scientist, Fathom Data

Bahasa untuk berinteraksi dengan Spark.
Dari Python impor modul pyspark.
import pyspark
Periksa versi modul pyspark.
pyspark.__version__
'2.4.1'
Selain pyspark ada
pyspark.sqlpyspark.streamingpyspark.mllib (usang) dan pyspark.mlCluster Jarak Jauh memakai Spark URL — spark://<IP address | DNS name>:<port>
Contoh:
spark://13.59.151.161:7077Cluster Lokal
Contoh:
local — hanya 1 core;local[4] — 4 core; ataulocal[*] — semua core tersedia.from pyspark.sql import SparkSession
Buat cluster lokal dengan builder SparkSession.
spark = SparkSession.builder \
.master('local[*]') \
.appName('first_spark_application') \
.getOrCreate()
Berinteraksi dengan Spark...
# Tutup koneksi ke Spark
>>> spark.stop()
Machine Learning dengan PySpark