Spark’a bağlanma

PySpark ile Machine Learning

Andrew Collier

Data Scientist, Fathom Data

Spark ile etkileşim

Java, Scala, Python ve R logoları.

Spark ile etkileşim için diller.

  • Java — düşük seviye, derlemeli
  • Scala, Python ve R — yüksek seviye, etkileşimli REPL ile
PySpark ile Machine Learning

pyspark’ı içe aktarma

Python’dan pyspark modülünü içe aktarın.

import pyspark

pyspark sürümünü kontrol edin.

pyspark.__version__
'2.4.1'
PySpark ile Machine Learning

Alt modüller

pyspark’a ek olarak şunlar vardır:

PySpark ile Machine Learning

Spark URL’si

Uzak Küme Spark URL ile — spark://<IP address | DNS name>:<port>

Örnek:

  • spark://13.59.151.161:7077

Yerel Küme

Örnekler:

  • local — yalnızca 1 çekirdek;
  • local[4] — 4 çekirdek; veya
  • local[*] — tüm çekirdekler.
PySpark ile Machine Learning

SparkSession oluşturma

from pyspark.sql import SparkSession

Bir SparkSession oluşturucu ile yerel küme başlatın.

spark = SparkSession.builder \
                    .master('local[*]') \
                    .appName('first_spark_application') \
                    .getOrCreate()

Sparklа etkileşim...

# Spark bağlantısını kapat
>>> spark.stop()
PySpark ile Machine Learning

Hadi Spark’a bağlanalım!

PySpark ile Machine Learning

Preparing Video For Download...