PySpark: Spark com Python

Fundamentos de Big Data com PySpark

Upendra Devisetty

Science Analyst, CyVerse

Visão geral do PySpark

  • Apache Spark é escrito em Scala

  • Para usar Python com Spark, a comunidade lançou o PySpark

  • Velocidade e poder de computação similares ao Scala

  • As APIs do PySpark são parecidas com Pandas e Scikit-learn

Fundamentos de Big Data com PySpark

O que é o Spark shell?

  • Ambiente interativo para rodar jobs Spark

  • Útil para prototipagem rápida

  • Shells do Spark permitem interagir com dados em disco ou na memória

  • Três shells do Spark:

    • Spark-shell para Scala

    • PySpark-shell para Python

    • SparkR para R

Fundamentos de Big Data com PySpark

PySpark shell

  • PySpark shell é a ferramenta de linha de comando em Python

  • Permite que cientistas de dados interajam com estruturas de dados do Spark

  • O PySpark shell pode conectar a um cluster

Fundamentos de Big Data com PySpark

Entendendo o SparkContext

  • SparkContext é a porta de entrada para o Spark

  • Um entry point é uma forma de se conectar ao cluster Spark

  • É como a chave da casa

  • O PySpark tem um SparkContext padrão chamado sc

1 https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python
Fundamentos de Big Data com PySpark

Inspecionando o SparkContext

  • Versão: Para obter a versão do SparkContext
sc.version
2.3.1
  • Versão do Python: Para obter a versão do Python do SparkContext
sc.pythonVer
3.6
  • Master: URL do cluster ou string para modo local do SparkContext
sc.master
local[*]
1 https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python
Fundamentos de Big Data com PySpark

Carregando dados no PySpark

  • Método parallelize() do SparkContext
rdd = sc.parallelize([1,2,3,4,5])
  • Método textFile() do SparkContext
rdd2 = sc.textFile("test.txt")
1 https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python
Fundamentos de Big Data com PySpark

Vamos praticar!

Fundamentos de Big Data com PySpark

Preparing Video For Download...