Frameworks de computação paralela

Introdução à Engenharia de Dados

Vincent Vankrunkelsven

Data Engineer @ DataCamp

Logo do Apache Hadoop

HDFS

Diagrama do HDFS como sistema de arquivos distribuído

Logo do Hadoop MapReduce

Diagrama ilustrando o exemplo de eventos olímpicos

Logo do Apache Hive

SELECT year, AVG(age)
FROM views.athlete_events
GROUP BY year

Diagrama do Hive para MapReduce

Imagem do logo do Spark

# Load the dataset into athlete_events_spark first

(athlete_events_spark
  .groupBy('Year')
  .mean('Age')
  .show())

SELECT year, AVG(age)
FROM views.athlete_events
GROUP BY year

Introdução à Engenharia de Dados