Fundamentos de Big Data

Fundamentos de Big Data com PySpark

Upendra Devisetty

Science Analyst, CyVerse

O que é Big Data?

  • Big data é o estudo e uso de conjuntos de dados complexos demais para softwares tradicionais de processamento — Wikipedia
Fundamentos de Big Data com PySpark

Os 3 V's do Big Data

  • Volume, Variedade e Velocidade

  • Volume: Tamanho dos dados

  • Variedade: Fontes e formatos diferentes

  • Velocidade: Rapidez dos dados

Fundamentos de Big Data com PySpark

Conceitos e termos de Big Data

  • Computação em cluster: Conjunto de recursos de várias máquinas

  • Computação paralela: Cálculo simultâneo em um único computador

  • Computação distribuída: Conjunto de nós (computadores em rede) que rodam em paralelo

  • Processamento em lote: Divide o trabalho e executa em máquinas individuais

  • Processamento em tempo real: Processa imediatamente

Fundamentos de Big Data com PySpark

Sistemas de processamento de Big Data

  • Hadoop/MapReduce: Framework escalável e tolerante a falhas, em Java

    • Código aberto

    • Processamento em lote

  • Apache Spark: Sistema de computação em cluster geral e muito rápido

    • Código aberto

    • Processa dados em lote e em tempo real

  • Nota: Hoje o Apache Spark é preferido ao Hadoop/MapReduce

Fundamentos de Big Data com PySpark

Recursos do Apache Spark

  • Framework distribuído de computação em cluster

  • Cálculos em memória eficientes para grandes volumes

  • Processamento de dados muito rápido

  • Suporte a Java, Scala, Python, R e SQL

Fundamentos de Big Data com PySpark

Componentes do Apache Spark

spark

Fundamentos de Big Data com PySpark

Modos de implantação do Spark

  • Modo local: Uma máquina, como seu laptop

    • Conveniente para testar, depurar e demonstrar
  • Modo cluster: Conjunto de máquinas pré-definidas

    • Bom para produção
  • Fluxo: Local -> clusters

  • Sem mudar o código

Fundamentos de Big Data com PySpark

A seguir: PySpark

Fundamentos de Big Data com PySpark

Preparing Video For Download...