Fundamentos de Big Data

Fundamentos de Big Data com PySpark

Upendra Devisetty

Science Analyst, CyVerse

O que é Big Data?

Big data é o estudo e uso de conjuntos de dados complexos demais para softwares tradicionais de processamento — Wikipedia

Os 3 V's do Big Data

Volume, Variedade e Velocidade
Volume: Tamanho dos dados
Variedade: Fontes e formatos diferentes
Velocidade: Rapidez dos dados

Conceitos e termos de Big Data

Computação em cluster: Conjunto de recursos de várias máquinas
Computação paralela: Cálculo simultâneo em um único computador
Computação distribuída: Conjunto de nós (computadores em rede) que rodam em paralelo
Processamento em lote: Divide o trabalho e executa em máquinas individuais
Processamento em tempo real: Processa imediatamente

Sistemas de processamento de Big Data

Hadoop/MapReduce: Framework escalável e tolerante a falhas, em Java
- Código aberto
- Processamento em lote
Apache Spark: Sistema de computação em cluster geral e muito rápido
- Código aberto
- Processa dados em lote e em tempo real
Nota: Hoje o Apache Spark é preferido ao Hadoop/MapReduce

Recursos do Apache Spark

Framework distribuído de computação em cluster
Cálculos em memória eficientes para grandes volumes
Processamento de dados muito rápido
Suporte a Java, Scala, Python, R e SQL

Componentes do Apache Spark

spark

Modos de implantação do Spark

Modo local: Uma máquina, como seu laptop
- Conveniente para testar, depurar e demonstrar
Modo cluster: Conjunto de máquinas pré-definidas
- Bom para produção
Fluxo: Local -> clusters
Sem mudar o código

A seguir: PySpark

Fundamentos de Big Data com PySpark

Preparing Video For Download...