Introducción a PySpark

Introducción a PySpark

Benjamin Schmidt

Data Engineer

Conoce a tu instructor

  • Casi una década de experiencia en datos con PySpark
  • Uso de PySpark para Machine Learning, tareas ETL y mucho más

  • ¡Entusiasta profesor de nuevas herramientas para todos!

-Ben Schmidt

Introducción a PySpark

¿Qué es PySpark?

  • Procesamiento de datos distribuido: Diseñado para manejar grandes conjuntos de datos en clústeres

  • Soporta varios formatos de datos, incluyendo CSV, Parquet y JSON

  • Integración con SQL permite consultar datos usando sintaxis de Python y SQL

  • Optimizado para velocidad a gran escala

Data_ecosystem

Introducción a PySpark

¿Cuándo usar PySpark?

  • Análisis de big data

  • Procesamiento de datos distribuido

  • Transmisión de datos en tiempo real

  • Aprendizaje automático en grandes conjuntos de datos

  • Pipelines ETL y ELT

  • Trabajar con diversas fuentes de datos:

    1. CSV
    2. JSON
    3. Parquet
    4. Muchos más
Introducción a PySpark

Clúster de Spark

Nodo Maestro

  • Gestiona el clúster, coordina tareas y programa trabajos

Nodos Trabajadores

  • Ejecutan las tareas asignadas por el maestro
  • Responsables de ejecutar los cálculos y almacenar datos en memoria o disco

Nodo maestro

Nodo trabajador

Introducción a PySpark

SparkSession

  • SparkSessions te permiten acceder a tu clúster de Spark y son esenciales para usar PySpark.
# Importar SparkSession
from pyspark.sql import SparkSession

# Iniciar una SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()

$$

  • .builder() configura una sesión
  • getOrCreate() crea o recupera una sesión
  • .appName() ayuda a gestionar múltiples sesiones
Introducción a PySpark

DataFrames de PySpark

  • Similar a otros DataFrames pero
  • Optimizado para PySpark
# Importar e iniciar una sesión de Spark
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()

# Crear un DataFrame
census_df = spark.read.csv("census.csv",
                ["gender","age","zipcode","salary_range_usd","marriage_status"])

# Mostrar el DataFrame
census_df.show()

Introducción a PySpark

¡Vamos a practicar!

Introducción a PySpark

Preparing Video For Download...