Frameworks de computação paralela

Introdução à Engenharia de Dados

Vincent Vankrunkelsven

Data Engineer @ DataCamp

 

Logo do Apache Hadoop

Introdução à Engenharia de Dados

HDFS

 

Diagrama do HDFS como sistema de arquivos distribuído

Introdução à Engenharia de Dados

MapReduce

 

Logo do Hadoop MapReduce

 

Diagrama ilustrando o exemplo de eventos olímpicos

Introdução à Engenharia de Dados

Hive

 

  • Roda no Hadoop
  • Linguagem de consulta estruturada: Hive SQL
  • Antes usava MapReduce; hoje, outras ferramentas

Logo do Apache Hive

Introdução à Engenharia de Dados

Hive: um exemplo

 

SELECT year, AVG(age)
FROM views.athlete_events
GROUP BY year

 

Diagrama do Hive para MapReduce

Introdução à Engenharia de Dados

Imagem do logo do Spark

  • Evita gravações em disco
  • Mantido pela Apache Software Foundation
Introdução à Engenharia de Dados

Resilient Distributed Datasets (RDD)

 

  • O Spark depende deles
  • Parecido com lista de tuplas
  • Transformações: .map() ou .filter()
  • Ações: .count() ou .first()
Introdução à Engenharia de Dados

PySpark

 

  • Interface Python para Spark
  • Abstração de DataFrame
  • Lembra o Pandas
Introdução à Engenharia de Dados

PySpark: um exemplo

# Load the dataset into athlete_events_spark first

(athlete_events_spark
  .groupBy('Year')
  .mean('Age')
  .show())
SELECT year, AVG(age)
FROM views.athlete_events
GROUP BY year
Introdução à Engenharia de Dados

Vamos praticar!

Introdução à Engenharia de Dados

Preparing Video For Download...