Marcos de computación en paralelo

Introducción a la ingeniería de datos

Vincent Vankrunkelsven

Data Engineer @ DataCamp

Logo de Apache Hadoop

HDFS

Diagrama de HDFS como sistema de archivos distribuido

Logo de Hadoop MapReduce

Diagrama que ilustra el ejemplo de eventos olímpicos

Logo de Apache Hive

SELECT year, AVG(age)
FROM views.athlete_events
GROUP BY year

Diagrama de Hive a MapReduce

Imagen del logo de Spark

# Load the dataset into athlete_events_spark first

(athlete_events_spark
  .groupBy('Year')
  .mean('Age')
  .show())

SELECT year, AVG(age)
FROM views.athlete_events
GROUP BY year

Introducción a la ingeniería de datos