Introducción a PySpark
Benjamin Schmidt
Data Engineer
Uso de PySpark para Machine Learning, tareas ETL y mucho más
¡Entusiasta profesor de nuevas herramientas para todos!
-
Procesamiento de datos distribuido: Diseñado para manejar grandes conjuntos de datos en clústeres
Soporta varios formatos de datos, incluyendo CSV, Parquet y JSON
Integración con SQL permite consultar datos usando sintaxis de Python y SQL
Optimizado para velocidad a gran escala

Análisis de big data
Procesamiento de datos distribuido
Transmisión de datos en tiempo real
Aprendizaje automático en grandes conjuntos de datos
Pipelines ETL y ELT
Trabajar con diversas fuentes de datos:


# Importar SparkSession
from pyspark.sql import SparkSession
# Iniciar una SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()
$$
.builder() configura una sesióngetOrCreate() crea o recupera una sesión.appName() ayuda a gestionar múltiples sesiones# Importar e iniciar una sesión de Spark
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()
# Crear un DataFrame
census_df = spark.read.csv("census.csv",
["gender","age","zipcode","salary_range_usd","marriage_status"])
# Mostrar el DataFrame
census_df.show()
Introducción a PySpark