PySpark: Spark con Python

Fundamentos de big data con PySpark

Upendra Devisetty

Science Analyst, CyVerse

Visión general de PySpark

  • Apache Spark está escrito en Scala

  • Para usar Python con Spark, la comunidad lanzó PySpark

  • Velocidad y potencia similares a Scala

  • Las APIs de PySpark son similares a Pandas y Scikit-learn

Fundamentos de big data con PySpark

¿Qué es el shell de Spark?

  • Entorno interactivo para ejecutar trabajos de Spark

  • Útil para prototipado rápido interactivo

  • Los shells de Spark permiten interactuar con datos en disco o en memoria

  • Tres shells de Spark:

    • Spark-shell para Scala

    • PySpark-shell para Python

    • SparkR para R

Fundamentos de big data con PySpark

Shell de PySpark

  • El shell de PySpark es la herramienta de línea de comandos en Python

  • Permite a data scientists interactuar con estructuras de datos de Spark

  • El shell de PySpark permite conectar a un clúster

Fundamentos de big data con PySpark

Entender SparkContext

  • SparkContext es la puerta de entrada a Spark

  • Un entry point conecta con el clúster de Spark

  • Un entry point es como la llave de la casa

  • PySpark tiene un SparkContext por defecto llamado sc

1 https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python
Fundamentos de big data con PySpark

Inspeccionar SparkContext

  • Versión: Para obtener la versión de SparkContext
sc.version
2.3.1
  • Versión de Python: Para obtener la versión de Python de SparkContext
sc.pythonVer
3.6
  • Master: URL del clúster o cadena local para ejecutar en modo local de SparkContext
sc.master
local[*]
1 https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python
Fundamentos de big data con PySpark

Cargar datos en PySpark

  • Método parallelize() de SparkContext
rdd = sc.parallelize([1,2,3,4,5])
  • Método textFile() de SparkContext
rdd2 = sc.textFile("test.txt")
1 https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python
Fundamentos de big data con PySpark

¡Vamos a practicar!

Fundamentos de big data con PySpark

Preparing Video For Download...