Problemi nei batch

Concetti di Streaming

Mike Metzger

Data Engineer

Ritardi

  • Tempo fino a quando i dati sono pronti per l’elaborazione
    • Tutti i dati sono disponibili?
  • Tempo fino all’avvio del processo
    • Quando inizia il prossimo intervallo?
  • Tempo per elaborare i dati
    • Quanto manca al completamento?
  • Tempo fino a quando i dati elaborati sono disponibili all’uso
    • Tra quanto gli utenti possono usare i dati?
Concetti di Streaming

Esempio n. 1

In attesa dei dati sorgente

  • Le macchine inviano log in momenti di basso carico
  • Funziona bene con carico normale
  • Alto carico può limitare l’invio dei log, nascondendo problemi.
Concetti di Streaming

Esempio n. 2

In attesa del processo

  • 100 GB di log al giorno
  • Ora servono 23 ore per elaborarli
  • Circa 4,4 GB/ora
  • Crescono del 5% al mese
  • Il mese prossimo: 105 GB, ~24 ore
  • Quello dopo: ~110 GB, ~25 ore
  • Serve più di un giorno per elaborare i dati di un giorno!
Concetti di Streaming

Esempio n. 3

In attesa che i dati siano disponibili

  • Tra quanto le analytics sono disponibili?
  • Il report vendite deve aspettare tutte le info
  • La somma dei ritardi è il tempo minimo per un nuovo report
    • Tempo per raccogliere/preparare i dati: 1 giorno
    • Tempo per elaborare i dati: 7 ore
    • Tempo per aggiornare i sistemi: 5 ore
    • Tempo per generare il report: 2 min
  • Tempo totale per ogni report: 1,5 giorni
Concetti di Streaming

Let's practice!

Concetti di Streaming

Preparing Video For Download...