Fundamentos de Big Data com PySpark
Upendra Devisetty
Science Analyst, CyVerse
Volume, Variedade e Velocidade
Volume: Tamanho dos dados
Variedade: Fontes e formatos diferentes
Velocidade: Rapidez dos dados
Computação em cluster: Conjunto de recursos de várias máquinas
Computação paralela: Cálculo simultâneo em um único computador
Computação distribuída: Conjunto de nós (computadores em rede) que rodam em paralelo
Processamento em lote: Divide o trabalho e executa em máquinas individuais
Processamento em tempo real: Processa imediatamente
Hadoop/MapReduce: Framework escalável e tolerante a falhas, em Java
Código aberto
Processamento em lote
Apache Spark: Sistema de computação em cluster geral e muito rápido
Código aberto
Processa dados em lote e em tempo real
Nota: Hoje o Apache Spark é preferido ao Hadoop/MapReduce
Framework distribuído de computação em cluster
Cálculos em memória eficientes para grandes volumes
Processamento de dados muito rápido
Suporte a Java, Scala, Python, R e SQL

Modo local: Uma máquina, como seu laptop
Modo cluster: Conjunto de máquinas pré-definidas
Fluxo: Local -> clusters
Sem mudar o código
Fundamentos de Big Data com PySpark