Fundamental Big Data dengan PySpark
Upendra Devisetty
Science Analyst, CyVerse
Volume, Variasi, dan Kecepatan
Volume: Ukuran data
Variasi: Sumber dan format berbeda
Kecepatan: Laju data
Komputasi berkluster: Kumpulan sumber daya dari banyak mesin
Komputasi paralel: Perhitungan serentak pada satu komputer
Komputasi terdistribusi: Kumpulan node (komputer berjaringan) yang berjalan paralel
Pemrosesan batch: Memecah tugas jadi bagian kecil dan menjalankannya di mesin masing-masing
Pemrosesan real-time: Pemrosesan data seketika
Hadoop/MapReduce: Kerangka kerja skalabel dan toleran kesalahan, ditulis dalam Java
Sumber terbuka
Pemrosesan batch
Apache Spark: Sistem komputasi kluster serbaguna dan sangat cepat
Sumber terbuka
Pemrosesan batch dan real-time
Catatan: Kini Apache Spark lebih disukai daripada Hadoop/MapReduce
Kerangka komputasi kluster terdistribusi
Komputasi in-memory yang efisien untuk data besar
Pemrosesan data sangat cepat
Mendukung Java, Scala, Python, R, dan SQL

Mode lokal: Satu mesin, mis. laptop Anda
Mode kluster: Kumpulan mesin yang sudah ditentukan
Alur kerja: Lokal -> kluster
Tanpa ubah kode
Fundamental Big Data dengan PySpark