Dataverwerking

Moderne data-architectuur begrijpen

Miller Trujillo

Senior Software Engineer

Wat is dataverwerking?

  • Exploratie
  • Datakwaliteit: checks en transformaties
  • Analyse
  • Aggregaties
  • Transformaties
Moderne data-architectuur begrijpen

Batchverwerking

  • Batch en streaming
  • Vaste hoeveelheid data

Batchverwerking met meerdere open-sourceframeworks en clouddiensten

Moderne data-architectuur begrijpen

Streamverwerking

Vasteraamvenster

Vasteraamvenster

Schuivend tijdvenster

Schuivend tijdvenster

1 https://beam.apache.org/documentation/programming-guide/#windowing
Moderne data-architectuur begrijpen

Concepten van streamverwerking

  • Wanneer data is gegenereerd
  • Wanneer data is aangekomen
  • Watermarks
  • Late data
  • Nieuwe verwerking triggeren
Moderne data-architectuur begrijpen

Verwerkingstechnologieën

Use case Oplossing Cloudoplossing
Batch/streaming, big data, cluster Apache Spark, Flink, Beam AWS EMR, AWS Glue, Google Dataproc, Google Dataflow
Batch/streaming, big data, serverless (servers worden volledig beheerd door de provider) Apache Spark, Beam AWS Glue, Google Dataflow
Individuele events, eenvoudige verwerking, 24/7 ondersteuning zonder draaiende servers Algemene programmeertalen: Python, Javascript, C#, Java, Go AWS Lambda, Google Cloud Functions
Moderne data-architectuur begrijpen

Laten we oefenen!

Moderne data-architectuur begrijpen

Preparing Video For Download...