Fundamentos de Big Data

Fundamentos de big data con PySpark

Upendra Devisetty

Science Analyst, CyVerse

¿Qué es Big Data?

  • Big Data es el estudio y uso de conjuntos de datos demasiado complejos para el software de procesamiento tradicional - Wikipedia
Fundamentos de big data con PySpark

Las 3 V de Big Data

  • Volumen, Variedad y Velocidad

  • Volumen: Tamaño de los datos

  • Variedad: Diferentes fuentes y formatos

  • Velocidad: Ritmo de los datos

Fundamentos de big data con PySpark

Conceptos y terminología de Big Data

  • Computación en clúster: Conjunto de recursos de varias máquinas

  • Computación en paralelo: Cálculo simultáneo en un solo equipo

  • Computación distribuida: Conjunto de nodos (equipos en red) que ejecutan en paralelo

  • Procesamiento por lotes: Dividir el trabajo en piezas y ejecutarlas en máquinas individuales

  • Procesamiento en tiempo real: Procesamiento inmediato de datos

Fundamentos de big data con PySpark

Sistemas de procesamiento Big Data

  • Hadoop/MapReduce: Marco escalable y tolerante a fallos escrito en Java

    • Código abierto

    • Procesamiento por lotes

  • Apache Spark: Sistema de cómputo en clúster de propósito general y muy rápido

    • Código abierto

    • Procesamiento por lotes y en tiempo real

  • Nota: Hoy en día se prefiere Apache Spark frente a Hadoop/MapReduce

Fundamentos de big data con PySpark

Características de Apache Spark

  • Framework distribuido para cómputo en clúster

  • Cálculo en memoria eficiente para grandes datos

  • Procesamiento de datos muy rápido

  • Soporta Java, Scala, Python, R y SQL

Fundamentos de big data con PySpark

Componentes de Apache Spark

spark

Fundamentos de big data con PySpark

Modos de despliegue de Spark

  • Modo local: Una sola máquina, como tu portátil

    • Útil para probar, depurar y demostrar
  • Modo clúster: Conjunto de máquinas predefinidas

    • Bueno para producción
  • Flujo de trabajo: Local -> clústeres

  • No hace falta cambiar código

Fundamentos de big data con PySpark

A continuación: PySpark

Fundamentos de big data con PySpark

Preparing Video For Download...