Fundamentos de big data con PySpark
Upendra Devisetty
Science Analyst, CyVerse
Apache Spark está escrito en Scala
Para usar Python con Spark, la comunidad lanzó PySpark
Velocidad y potencia similares a Scala
Las APIs de PySpark son similares a Pandas y Scikit-learn
Entorno interactivo para ejecutar trabajos de Spark
Útil para prototipado rápido interactivo
Los shells de Spark permiten interactuar con datos en disco o en memoria
Tres shells de Spark:
Spark-shell para Scala
PySpark-shell para Python
SparkR para R
El shell de PySpark es la herramienta de línea de comandos en Python
Permite a data scientists interactuar con estructuras de datos de Spark
El shell de PySpark permite conectar a un clúster
SparkContext es la puerta de entrada a Spark
Un entry point conecta con el clúster de Spark
Un entry point es como la llave de la casa
PySpark tiene un SparkContext por defecto llamado sc
sc.version
2.3.1
sc.pythonVer
3.6
sc.master
local[*]
parallelize() de SparkContextrdd = sc.parallelize([1,2,3,4,5])
textFile() de SparkContextrdd2 = sc.textFile("test.txt")
Fundamentos de big data con PySpark