Marcos de computación en paralelo

Introducción a la ingeniería de datos

Vincent Vankrunkelsven

Data Engineer @ DataCamp

 

Logo de Apache Hadoop

Introducción a la ingeniería de datos

HDFS

 

Diagrama de HDFS como sistema de archivos distribuido

Introducción a la ingeniería de datos

MapReduce

 

Logo de Hadoop MapReduce

 

Diagrama que ilustra el ejemplo de eventos olímpicos

Introducción a la ingeniería de datos

Hive

 

  • Se ejecuta en Hadoop
  • Lenguaje SQL: Hive SQL
  • Antes MapReduce; ahora también otras herramientas

Logo de Apache Hive

Introducción a la ingeniería de datos

Hive: un ejemplo

 

SELECT year, AVG(age)
FROM views.athlete_events
GROUP BY year

 

Diagrama de Hive a MapReduce

Introducción a la ingeniería de datos

Imagen del logo de Spark

  • Evita escrituras en disco
  • Mantenido por la Apache Software Foundation
Introducción a la ingeniería de datos

Resilient Distributed Datasets (RDD)

 

  • Spark se basa en ellos
  • Similar a una lista de tuplas
  • Transformaciones: .map() o .filter()
  • Acciones: .count() o .first()
Introducción a la ingeniería de datos

PySpark

 

  • Interfaz de Python para Spark
  • Abstracción de DataFrame
  • Se parece a Pandas
Introducción a la ingeniería de datos

PySpark: un ejemplo

# Load the dataset into athlete_events_spark first

(athlete_events_spark
  .groupBy('Year')
  .mean('Age')
  .show())
SELECT year, AVG(age)
FROM views.athlete_events
GROUP BY year
Introducción a la ingeniería de datos

¡Vamos a practicar!

Introducción a la ingeniería de datos

Preparing Video For Download...