Machine Learning & Spark

Machine Learning dengan PySpark

Andrew Collier

Data Scientist, Fathom Data

Membangun waffle sempurna (analogi)

Satu waffle.

Cari resep waffle. Beri instruksi jelas:

  • 125 g tepung
  • 1 sdt baking powder
  • 1 butir telur
  • 225 ml susu
  • 1 sdm mentega leleh

Sekumpulan waffle.

Cari banyak resep waffle.

Pelajari resep terbaik:

  1. Lihat banyak resep.
  2. Apa bahannya?
  3. Berapa perbandingannya?

Komputer membuat instruksinya sendiri.

Machine Learning dengan PySpark

Plot tepung versus gula untuk model regresi. Plot garam versus gula untuk klasifikasi.

Machine Learning dengan PySpark

Data di RAM

Saat data kecil, seluruh masalah muat di RAM.

Machine Learning dengan PySpark

Data melebihi RAM

Saat data lebih besar dari RAM, dipindah ke disk.

Machine Learning dengan PySpark

Data didistribusikan di klaster

Untuk data yang sangat besar, masuk akal untuk mendistribusikan data ke banyak komputer.

Machine Learning dengan PySpark

Apa itu Spark?

Logo Spark.

  • Komputasi di klaster terdistribusi.
  • Data diproses di memori.
  • API tingkat tinggi, terdokumentasi baik.
Machine Learning dengan PySpark

Kumpulan node dalam sebuah klaster.

Machine Learning dengan PySpark

Kumpulan node dalam klaster dengan pengelola klaster.

Machine Learning dengan PySpark

Kumpulan node dalam klaster dengan pengelola klaster dan driver.

Machine Learning dengan PySpark

Eksekutor pada tiap node di klaster.

Machine Learning dengan PySpark

Lanjut!

Machine Learning dengan PySpark

Preparing Video For Download...