PySpark: Spark met Python

Big Data Fundamentals met PySpark

Upendra Devisetty

Science Analyst, CyVerse

Overzicht van PySpark

  • Apache Spark is geschreven in Scala

  • Om Python met Spark te gebruiken, bracht de community PySpark uit

  • Vergelijke rekensnelheid en -kracht als Scala

  • PySpark-API's lijken op Pandas en Scikit-learn

Big Data Fundamentals met PySpark

Wat is de Spark-shell?

  • Interactieve omgeving om Spark-jobs te draaien

  • Handig voor snel interactief prototypen

  • Shells laten je met data op schijf of in geheugen werken

  • Drie Spark-shells:

    • Spark-shell voor Scala

    • PySpark-shell voor Python

    • SparkR voor R

Big Data Fundamentals met PySpark

PySpark-shell

  • PySpark-shell is de Python-gebaseerde command-line tool

  • PySpark-shell laat data scientists werken met Spark-datastructuren

  • PySpark-shell kan verbinden met een cluster

Big Data Fundamentals met PySpark

SparkContext begrijpen

  • SparkContext is het toegangspunt tot Spark

  • Een toegangspunt verbindt je met de Spark-cluster

  • Een toegangspunt is als een sleutel van het huis

  • PySpark heeft standaard een SparkContext sc

1 https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python
Big Data Fundamentals met PySpark

SparkContext inspecteren

  • Versie: Versie van SparkContext opvragen
sc.version
2.3.1
  • Python-versie: Python-versie van SparkContext opvragen
sc.pythonVer
3.6
  • Master: URL van de cluster of lokale string om lokaal te draaien voor SparkContext
sc.master
local[*]
1 https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python
Big Data Fundamentals met PySpark

Data laden in PySpark

  • Methode parallelize() van SparkContext
rdd = sc.parallelize([1,2,3,4,5])
  • Methode textFile() van SparkContext
rdd2 = sc.textFile("test.txt")
1 https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python
Big Data Fundamentals met PySpark

Laten we oefenen!

Big Data Fundamentals met PySpark

Preparing Video For Download...