Big Data Fundamentals met PySpark
Upendra Devisetty
Science Analyst, CyVerse
Volume, variëteit en snelheid
Volume: Omvang van de data
Variëteit: Verschillende bronnen en formaten
Snelheid: Verwerk-/stroomsnelheid
Cluster computing: Bundeling van resources van meerdere machines
Parallel computing: Gelijktijdige berekening op één computer
Distributed computing: Verzameling knooppunten (netwerkcomputers) die parallel draaien
Batchverwerking: Taak opdelen en op losse machines draaien
Realtime verwerking: Directe verwerking van data
Hadoop/MapReduce: Schaalbaar en fouttolerant framework in Java
Open source
Batchverwerking
Apache Spark: Algemeen, razendsnel clustercomputingsysteem
Open source
Zowel batch als realtime verwerking
Let op: Apache Spark heeft tegenwoordig de voorkeur boven Hadoop/MapReduce
Gedistribueerd clustercomputingframework
Efficiënte in-memory-berekeningen voor grote datasets
Razendsnel verwerkingsframework
Ondersteunt Java, Scala, Python, R en SQL

Local mode: Eén machine, zoals je laptop
Cluster mode: Set vooraf ingestelde machines
Workflow: lokaal -> clusters
Geen codewijziging nodig
Big Data Fundamentals met PySpark