Elaborazione dei dati

Comprendere la data architecture moderna

Miller Trujillo

Senior Software Engineer

Cos’è l’elaborazione dei dati?

  • Esplorazione
  • Qualità dei dati: verifiche e trasformazioni
  • Analisi
  • Aggregazioni
  • Trasformazioni
Comprendere la data architecture moderna

Elaborazione batch

  • Batch e streaming
  • Quantità di dati fissa

Elaborazione batch con vari framework open source e servizi cloud

Comprendere la data architecture moderna

Elaborazione in streaming

Finestra temporale fissa

Finestra temporale fissa

Finestra temporale mobile

Finestra temporale mobile

1 https://beam.apache.org/documentation/programming-guide/#windowing
Comprendere la data architecture moderna

Concetti di streaming

  • Quando i dati sono stati generati
  • Quando i dati sono arrivati
  • Watermark
  • Dati in ritardo
  • Attiva nuova elaborazione
Comprendere la data architecture moderna

Tecnologie di elaborazione

Caso d’uso Soluzione Soluzione cloud
Batch/streaming, big data, cluster Apache Spark, Flink, Beam AWS EMR, AWS Glue, Google Dataproc, Google Dataflow
Batch/streaming, big data, serverless (server gestiti interamente dal provider) Apache Spark, Beam AWS Glue, Google Dataflow
Eventi singoli, elaborazione semplice, supporto 24/7 senza server attivi Linguaggi generali: Python, Javascript, C#, Java, Go AWS Lambda, Google Cloud Functions
Comprendere la data architecture moderna

Passiamo alla pratica !

Comprendere la data architecture moderna

Preparing Video For Download...