Basis van big data

Big Data Fundamentals met PySpark

Upendra Devisetty

Science Analyst, CyVerse

Wat is big data?

  • Big data verwijst naar het bestuderen en toepassen van datasets die te complex zijn voor traditionele dataverwerking — Wikipedia
Big Data Fundamentals met PySpark

De 3 V’s van big data

  • Volume, variëteit en snelheid

  • Volume: Omvang van de data

  • Variëteit: Verschillende bronnen en formaten

  • Snelheid: Verwerk-/stroomsnelheid

Big Data Fundamentals met PySpark

Big-dataconcepten en -terminologie

  • Cluster computing: Bundeling van resources van meerdere machines

  • Parallel computing: Gelijktijdige berekening op één computer

  • Distributed computing: Verzameling knooppunten (netwerkcomputers) die parallel draaien

  • Batchverwerking: Taak opdelen en op losse machines draaien

  • Realtime verwerking: Directe verwerking van data

Big Data Fundamentals met PySpark

Big-dataverwerkingssystemen

  • Hadoop/MapReduce: Schaalbaar en fouttolerant framework in Java

    • Open source

    • Batchverwerking

  • Apache Spark: Algemeen, razendsnel clustercomputingsysteem

    • Open source

    • Zowel batch als realtime verwerking

  • Let op: Apache Spark heeft tegenwoordig de voorkeur boven Hadoop/MapReduce

Big Data Fundamentals met PySpark

Features van Apache Spark

  • Gedistribueerd clustercomputingframework

  • Efficiënte in-memory-berekeningen voor grote datasets

  • Razendsnel verwerkingsframework

  • Ondersteunt Java, Scala, Python, R en SQL

Big Data Fundamentals met PySpark

Onderdelen van Apache Spark

spark

Big Data Fundamentals met PySpark

Spark-uitrolmodi

  • Local mode: Eén machine, zoals je laptop

    • Handig voor testen, debuggen en demo’s
  • Cluster mode: Set vooraf ingestelde machines

    • Geschikt voor productie
  • Workflow: lokaal -> clusters

  • Geen codewijziging nodig

Big Data Fundamentals met PySpark

Zo komt PySpark eraan

Big Data Fundamentals met PySpark

Preparing Video For Download...