Batchproblemen

Streaming-concepten

Mike Metzger

Data Engineer

Vertragingen

  • Tijd tot data klaar is voor verwerking
    • Is alle data beschikbaar?
  • Tijd tot proces start
    • Wanneer start het volgende interval?
  • Tijd om data te verwerken
    • Hoelang tot afronding?
  • Tijd tot verwerkte data beschikbaar is
    • Hoelang tot gebruikers de data kunnen gebruiken?
Streaming-concepten

Voorbeeld #1

Wachten op brondata

  • Machines sturen logbestanden bij lage belasting
  • Gaat goed bij normale belasting
  • Hoge belasting beperkt het verzenden van logs, waardoor issues kunnen worden verborgen.
Streaming-concepten

Voorbeeld #2

Wachten op het proces

  • 100GB logbestanden per dag
  • Verwerking duurt nu 23 uur
  • Ongeveer 4,4GB/uur
  • Groeit 5% per maand
  • Volgende maand 105GB, duurt ~24 uur
  • Maand daarna ~110GB, duurt ~25 uur
  • Verwerken van één dag duurt langer dan een dag!
Streaming-concepten

Voorbeeld #3

Wachten tot data beschikbaar is

  • Hoelang tot analytics beschikbaar zijn?
  • Verkooprapport moet wachten op alle informatie
  • Som van vertragingen is minimale tijd voor een nieuw rapport
    • Tijd om data te verzamelen/voorbereiden: 1 dag
    • Tijd om data te verwerken: 7 uur
    • Tijd om systemen te updaten: 5 uur
    • Tijd om rapport te genereren: 2 min
  • Totale tijd per rapport: 1,5 dag
Streaming-concepten

Laten we oefenen!

Streaming-concepten

Preparing Video For Download...