Masalah batch
Konsep Streaming
Mike Metzger
Data Engineer
Keterlambatan
- Waktu hingga data siap diproses
- Apakah semua data tersedia?
- Waktu hingga proses dimulai
- Kapan interval berikutnya mulai?
- Waktu untuk memproses data
- Berapa lama hingga selesai?
- Waktu hingga data terproses tersedia untuk digunakan
- Berapa lama hingga pengguna dapat memakai data?
Contoh #1
Menunggu data sumber
- Mesin mengirim file log saat utilisasi rendah
- Berjalan baik saat utilisasi normal
- Utilisasi tinggi dapat membatasi pengiriman log, berpotensi menyembunyikan masalah.
Contoh #2
Menunggu proses
- File log 100GB per hari
- Saat ini memerlukan 23 jam untuk memproses
- Sekitar 4,4GB/jam
- Tumbuh 5% per bulan
- Bulan depan menjadi 105GB dan memakan waktu ~24 jam
- Bulan berikutnya ~110GB dan ~25 jam
- Memproses data satu hari lebih lama dari satu hari!
Contoh #3
Menunggu data tersedia
- Berapa lama hingga analitik tersedia?
- Laporan penjualan harus menunggu semua informasi dihasilkan
- Jumlah penundaan adalah waktu minimum untuk membuat laporan baru
- Waktu untuk mengumpulkan/menyiapkan data: 1 hari
- Waktu untuk memproses data: 7 jam
- Waktu untuk memperbarui sistem: 5 jam
- Waktu untuk menghasilkan laporan: 2 mnt
- Total waktu per laporan: 1,5 hari
Ayo berlatih!
Konsep Streaming
Preparing Video For Download...