Masalah batch

Konsep Streaming

Mike Metzger

Data Engineer

Keterlambatan

  • Waktu hingga data siap diproses
    • Apakah semua data tersedia?
  • Waktu hingga proses dimulai
    • Kapan interval berikutnya mulai?
  • Waktu untuk memproses data
    • Berapa lama hingga selesai?
  • Waktu hingga data terproses tersedia untuk digunakan
    • Berapa lama hingga pengguna dapat memakai data?
Konsep Streaming

Contoh #1

Menunggu data sumber

  • Mesin mengirim file log saat utilisasi rendah
  • Berjalan baik saat utilisasi normal
  • Utilisasi tinggi dapat membatasi pengiriman log, berpotensi menyembunyikan masalah.
Konsep Streaming

Contoh #2

Menunggu proses

  • File log 100GB per hari
  • Saat ini memerlukan 23 jam untuk memproses
  • Sekitar 4,4GB/jam
  • Tumbuh 5% per bulan
  • Bulan depan menjadi 105GB dan memakan waktu ~24 jam
  • Bulan berikutnya ~110GB dan ~25 jam
  • Memproses data satu hari lebih lama dari satu hari!
Konsep Streaming

Contoh #3

Menunggu data tersedia

  • Berapa lama hingga analitik tersedia?
  • Laporan penjualan harus menunggu semua informasi dihasilkan
  • Jumlah penundaan adalah waktu minimum untuk membuat laporan baru
    • Waktu untuk mengumpulkan/menyiapkan data: 1 hari
    • Waktu untuk memproses data: 7 jam
    • Waktu untuk memperbarui sistem: 5 jam
    • Waktu untuk menghasilkan laporan: 2 mnt
  • Total waktu per laporan: 1,5 hari
Konsep Streaming

Ayo berlatih!

Konsep Streaming

Preparing Video For Download...