Introdução ao PySpark

Introdução ao PySpark

Benjamin Schmidt

Data Engineer

Conheça seu instrutor

Quase uma década de experiência com PySpark
Usou PySpark para Machine Learning, ETL e muito mais
Professor entusiasta de novas ferramentas para todos!

- Ben Schmidt

O que é PySpark?

Processamento distribuído: Projetado para grandes conjuntos de dados em clusters
Suporta vários formatos de dados, incluindo CSV, Parquet e JSON
Integração com SQL permite consultas usando Python e SQL
Otimizado para velocidade em escala

Data_ecosystem

Quando usar PySpark?

Análise de big data
Processamento de dados distribuído
Streaming de dados em tempo real
Machine learning em grandes conjuntos de dados
Pipelines ETL e ELT
Trabalhando com diversas fontes de dados:
1. CSV
2. JSON
3. Parquet
4. Muitos outros

Cluster Spark

Nó Mestre

Gerencia o cluster, coordena tarefas e agenda trabalhos

Nós Trabalhadores

Executam as tarefas atribuídas pelo mestre
Responsáveis por executar cálculos e armazenar dados em memória ou disco

Master node

Worker node

SparkSession

SparkSessions permitem acessar seu cluster Spark e são essenciais para usar PySpark.

# Importar SparkSession
from pyspark.sql import SparkSession

# Iniciar uma SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()

$$

.builder() configura uma sessão
getOrCreate() cria ou recupera uma sessão
.appName() ajuda a gerenciar várias sessões

DataFrames no PySpark

Semelhante a outros DataFrames, mas
Otimizado para PySpark

# Importar e iniciar uma sessão Spark
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()

# Criar um DataFrame
census_df = spark.read.csv("census.csv",
                ["gender","age","zipcode","salary_range_usd","marriage_status"])

# Mostrar o DataFrame
census_df.show()

Vamos praticar!

Introdução ao PySpark

Preparing Video For Download...