Menyambungkan ke Spark

Machine Learning dengan PySpark

Andrew Collier

Data Scientist, Fathom Data

Berinteraksi dengan Spark

Logo untuk Java, Scala, Python, dan R.

Bahasa untuk berinteraksi dengan Spark.

  • Java — level rendah, dikompilasi
  • Scala, Python, dan R — level tinggi dengan REPL interaktif
Machine Learning dengan PySpark

Mengimpor pyspark

Dari Python impor modul pyspark.

import pyspark

Periksa versi modul pyspark.

pyspark.__version__
'2.4.1'
Machine Learning dengan PySpark

Submodul

Selain pyspark ada

Machine Learning dengan PySpark

Spark URL

Cluster Jarak Jauh memakai Spark URL — spark://<IP address | DNS name>:<port>

Contoh:

  • spark://13.59.151.161:7077

Cluster Lokal

Contoh:

  • local — hanya 1 core;
  • local[4] — 4 core; atau
  • local[*] — semua core tersedia.
Machine Learning dengan PySpark

Membuat SparkSession

from pyspark.sql import SparkSession

Buat cluster lokal dengan builder SparkSession.

spark = SparkSession.builder \
                    .master('local[*]') \
                    .appName('first_spark_application') \
                    .getOrCreate()

Berinteraksi dengan Spark...

# Tutup koneksi ke Spark
>>> spark.stop()
Machine Learning dengan PySpark

Ayo terhubung ke Spark!

Machine Learning dengan PySpark

Preparing Video For Download...