Platform Kecerdasan Data - Komputasi

Pengantar Databricks

Kevin Barlow

Data Practitioner

Mengapa organisasi peduli soal komputasi?

Roda gigi tunggal

Sistem roda gigi

Pengantar Databricks

Apache Spark

  • Dibuat oleh para co-founder Databricks
  • Kerangka open source
  • Komputasi terdistribusi yang sangat efisien
  • API untuk Python, SQL, Scala, R
  • Cocok untuk semua use case:
    • dari rekayasa data hingga machine learning dan business intelligence

Lihat beberapa kursus Apache Spark di DataCamp!

Logo Apache Spark

Pengantar Databricks

Jenis Kluster

Klasik

  • Sumber daya komputasi (VM) dibuat di Compute Plane
  • Databricks menyediakan konfigurasi ke cloud Anda
  • Kelebihan: komputasi dan keamanan di lingkungan Anda, manfaatkan pool komputasi yang sudah ada, dll.
  • Kekurangan: waktu mulai lambat

Control Plane Databricks

Pengantar Databricks

Jenis Kluster

Serverless

  • Sumber daya komputasi (VM) dibuat di Control Plane
  • Databricks memberi akses ke pengguna Anda
  • Kelebihan: waktu mulai cepat, fitur terbaru, performa paling cepat, Databricks terus meningkatkan performa
  • Kekurangan(?): komputasi tidak berada di lingkungan Anda

Arsitektur Serverless

Pengantar Databricks

Single-node vs. Multi-node

Single-node

  • Kluster dengan satu Driver Node
  • Tetap bisa menjalankan Spark
  • Juga bisa menjalankan kerangka single-node (mis. pandas)
  • Cocok untuk dataset kecil

Kluster single-node

Multi-node

  • Kluster dengan satu Driver Node dan satu atau lebih Worker Node
  • Spark dapat mendistribusikan pekerjaan ke banyak node
  • Cocok untuk dataset besar

Kluster multi-node

Pengantar Databricks

Databricks Runtime

  • Terpasang di setiap kluster Databricks
    • Versi Apache Spark yang dioptimalkan
    • Photon untuk kueri SQL lebih cepat
    • Pustaka umum (mis. pandas, dplyr, scikit-learn)
    • Logika untuk terhubung ke layanan Databricks

Rekomendasi umum: Gunakan versi Runtime Long Term Support (LTS) terbaru

Kluster dengan Databricks Runtime

Pengantar Databricks

Ayo berlatih!

Pengantar Databricks

Preparing Video For Download...