Dasar-dasar Big Data

Fundamental Big Data dengan PySpark

Upendra Devisetty

Science Analyst, CyVerse

Apa itu Big Data?

  • Big data adalah istilah untuk studi dan penerapan pada himpunan data yang terlalu kompleks bagi perangkat lunak pemrosesan data tradisional - Wikipedia
Fundamental Big Data dengan PySpark

3 V Big Data

  • Volume, Variasi, dan Kecepatan

  • Volume: Ukuran data

  • Variasi: Sumber dan format berbeda

  • Kecepatan: Laju data

Fundamental Big Data dengan PySpark

Konsep dan Terminologi Big Data

  • Komputasi berkluster: Kumpulan sumber daya dari banyak mesin

  • Komputasi paralel: Perhitungan serentak pada satu komputer

  • Komputasi terdistribusi: Kumpulan node (komputer berjaringan) yang berjalan paralel

  • Pemrosesan batch: Memecah tugas jadi bagian kecil dan menjalankannya di mesin masing-masing

  • Pemrosesan real-time: Pemrosesan data seketika

Fundamental Big Data dengan PySpark

Sistem pemrosesan Big Data

  • Hadoop/MapReduce: Kerangka kerja skalabel dan toleran kesalahan, ditulis dalam Java

    • Sumber terbuka

    • Pemrosesan batch

  • Apache Spark: Sistem komputasi kluster serbaguna dan sangat cepat

    • Sumber terbuka

    • Pemrosesan batch dan real-time

  • Catatan: Kini Apache Spark lebih disukai daripada Hadoop/MapReduce

Fundamental Big Data dengan PySpark

Fitur kerangka kerja Apache Spark

  • Kerangka komputasi kluster terdistribusi

  • Komputasi in-memory yang efisien untuk data besar

  • Pemrosesan data sangat cepat

  • Mendukung Java, Scala, Python, R, dan SQL

Fundamental Big Data dengan PySpark

Komponen Apache Spark

spark

Fundamental Big Data dengan PySpark

Mode penerapan Spark

  • Mode lokal: Satu mesin, mis. laptop Anda

    • Nyaman untuk uji, debug, dan demo
  • Mode kluster: Kumpulan mesin yang sudah ditentukan

    • Cocok untuk produksi
  • Alur kerja: Lokal -> kluster

  • Tanpa ubah kode

Fundamental Big Data dengan PySpark

Berikutnya: PySpark

Fundamental Big Data dengan PySpark

Preparing Video For Download...