PySpark: Spark con Python

Fundamentos de big data con PySpark

Upendra Devisetty

Science Analyst, CyVerse

Visión general de PySpark

Entorno interactivo para ejecutar trabajos de Spark
Útil para prototipado rápido interactivo
Los shells de Spark permiten interactuar con datos en disco o en memoria
Tres shells de Spark:
- Spark-shell para Scala
- PySpark-shell para Python
- SparkR para R

¹ https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python

sc.version

2.3.1

sc.pythonVer

3.6

Master: URL del clúster o cadena local para ejecutar en modo local de SparkContext

sc.master

local[*]

¹ https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python

rdd = sc.parallelize([1,2,3,4,5])

rdd2 = sc.textFile("test.txt")

¹ https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python

Fundamentos de big data con PySpark