Batching vs. streaming

Concetti di Streaming

Mike Metzger

Data Engineer

Ripasso rapido

  • I processi batch gestiscono i dati in gruppi (batch)
  • Nei batch contano soprattutto la dimensione e la frequenza del batch
  • Le code memorizzano/elaborano i dati in ordine di inserimento
  • Le code sono batch, con dimensione pari a uno!
  • Gli stream gestiscono i dati senza pause lungo il percorso
  • Gli stream non hanno una fine definita
  • Gli stream mantengono l'ordine!
Concetti di Streaming

Fuoco!

  • Catena di secchi
    • Dimensione batch (quanto è grande il secchio)
    • Frequenza batch (quanto velocemente passare il secchio)

Catena di secchi

  • Idrante
    • Flusso di dati continuo
    • Non si sa quanta acqua

Idrante

1 Albert B. Kinne, Pubblico dominio, via Wikimedia Commons 2 Commander, U.S. Naval Forces Europe-Africa/U.S. 6th Fleet, Pubblico dominio, via Wikimedia Commons
Concetti di Streaming

Come scegliere l'approccio migliore?

  • Dipende dai requisiti
  • Se possiamo elaborare in gruppi, il batch spesso è migliore per semplicità
  • Se serve ordine, ma si può pausare, usa una coda
  • Se serve continuità o non sappiamo quanto arriverà, prova lo streaming
  • Se non possiamo fermarci finché non è tutto elaborato, usa lo streaming
Concetti di Streaming

Esercitiamoci!

Concetti di Streaming

Preparing Video For Download...