Fundamentos de big data con PySpark
Upendra Devisetty
Science Analyst, CyVerse
Volumen, Variedad y Velocidad
Volumen: Tamaño de los datos
Variedad: Diferentes fuentes y formatos
Velocidad: Ritmo de los datos
Computación en clúster: Conjunto de recursos de varias máquinas
Computación en paralelo: Cálculo simultáneo en un solo equipo
Computación distribuida: Conjunto de nodos (equipos en red) que ejecutan en paralelo
Procesamiento por lotes: Dividir el trabajo en piezas y ejecutarlas en máquinas individuales
Procesamiento en tiempo real: Procesamiento inmediato de datos
Hadoop/MapReduce: Marco escalable y tolerante a fallos escrito en Java
Código abierto
Procesamiento por lotes
Apache Spark: Sistema de cómputo en clúster de propósito general y muy rápido
Código abierto
Procesamiento por lotes y en tiempo real
Nota: Hoy en día se prefiere Apache Spark frente a Hadoop/MapReduce
Framework distribuido para cómputo en clúster
Cálculo en memoria eficiente para grandes datos
Procesamiento de datos muy rápido
Soporta Java, Scala, Python, R y SQL

Modo local: Una sola máquina, como tu portátil
Modo clúster: Conjunto de máquinas predefinidas
Flujo de trabajo: Local -> clústeres
No hace falta cambiar código
Fundamentos de big data con PySpark