Introdução ao PySpark

Introdução ao PySpark

Benjamin Schmidt

Data Engineer

Conheça seu instrutor

  • Quase uma década de experiência com PySpark
  • Usou PySpark para Machine Learning, ETL e muito mais

  • Professor entusiasta de novas ferramentas para todos!

-Ben Schmidt

Introdução ao PySpark

O que é PySpark?

  • Processamento distribuído: Projetado para grandes conjuntos de dados em clusters

  • Suporta vários formatos de dados, incluindo CSV, Parquet e JSON

  • Integração com SQL permite consultas usando Python e SQL

  • Otimizado para velocidade em escala

Data_ecosystem

Introdução ao PySpark

Quando usar PySpark?

  • Análise de big data

  • Processamento de dados distribuído

  • Streaming de dados em tempo real

  • Machine learning em grandes conjuntos de dados

  • Pipelines ETL e ELT

  • Trabalhando com diversas fontes de dados:

    1. CSV
    2. JSON
    3. Parquet
    4. Muitos outros
Introdução ao PySpark

Cluster Spark

Nó Mestre

  • Gerencia o cluster, coordena tarefas e agenda trabalhos

Nós Trabalhadores

  • Executam as tarefas atribuídas pelo mestre
  • Responsáveis por executar cálculos e armazenar dados em memória ou disco

Master node

Worker node

Introdução ao PySpark

SparkSession

  • SparkSessions permitem acessar seu cluster Spark e são essenciais para usar PySpark.
# Importar SparkSession
from pyspark.sql import SparkSession

# Iniciar uma SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()

$$

  • .builder() configura uma sessão
  • getOrCreate() cria ou recupera uma sessão
  • .appName() ajuda a gerenciar várias sessões
Introdução ao PySpark

DataFrames no PySpark

  • Semelhante a outros DataFrames, mas
  • Otimizado para PySpark
# Importar e iniciar uma sessão Spark
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()

# Criar um DataFrame
census_df = spark.read.csv("census.csv",
                ["gender","age","zipcode","salary_range_usd","marriage_status"])

# Mostrar o DataFrame
census_df.show()

Introdução ao PySpark

Vamos praticar!

Introdução ao PySpark

Preparing Video For Download...