Fundamentos de Big Data com PySpark
Upendra Devisetty
Science Analyst, CyVerse
Apache Spark é escrito em Scala
Para usar Python com Spark, a comunidade lançou o PySpark
Velocidade e poder de computação similares ao Scala
As APIs do PySpark são parecidas com Pandas e Scikit-learn
Ambiente interativo para rodar jobs Spark
Útil para prototipagem rápida
Shells do Spark permitem interagir com dados em disco ou na memória
Três shells do Spark:
Spark-shell para Scala
PySpark-shell para Python
SparkR para R
PySpark shell é a ferramenta de linha de comando em Python
Permite que cientistas de dados interajam com estruturas de dados do Spark
O PySpark shell pode conectar a um cluster
SparkContext é a porta de entrada para o Spark
Um entry point é uma forma de se conectar ao cluster Spark
É como a chave da casa
O PySpark tem um SparkContext padrão chamado sc
sc.version
2.3.1
sc.pythonVer
3.6
sc.master
local[*]
parallelize() do SparkContextrdd = sc.parallelize([1,2,3,4,5])
textFile() do SparkContextrdd2 = sc.textFile("test.txt")
Fundamentos de Big Data com PySpark