Pengantar visualisasi data

Visualisasi Data di Databricks

Gang Wang

Senior Data Scientist

Mitra Anda untuk visualisasi data

       

       

Gang Wang

Senior Data Scientist

Origin Energy, Australia (2021–sekarang)

Pengalaman pasca-PhD 9+ tahun

Visualisasi Data di Databricks

Apa itu visualisasi data?

 

Visualisasi data adalah praktik menyajikan data dalam format visual.

Format: termasuk bagan garis, batang, peta, dan infografik.

Tujuan utama:

  • Membuat data kompleks lebih mudah diakses.
  • Meningkatkan pemahaman dan kegunaan.

Contoh bagan garis yang menunjukkan perubahan PDB per kapita dari waktu ke waktu.

Contoh bagan batang yang menunjukkan distribusi demografis di berbagai negara.

1 Gambar: Economist Writing Every Day, The Economist
Visualisasi Data di Databricks

Mengapa kita perlu visualisasi data?

Manfaat:

  • Menyederhanakan data kompleks
  • Menyoroti pola dan tren utama
  • Meningkatkan pemrosesan visual
  • Memperkuat pemahaman dan retensi
  • Mendukung pengambilan keputusan dan perencanaan
  • Mendorong aksesibilitas dan kolaborasi data

Ilustrasi konseptual visualisasi data, menunjukkan bagaimana ia menyederhanakan data kompleks, menyoroti tren utama, dan meningkatkan pengambilan keputusan dengan membuat informasi lebih mudah diakses dan dipahami.

1 Gambar: Kovair
Visualisasi Data di Databricks

Konsep statistik kunci untuk visualisasi

Data diskret vs. kontinu

  • Data diskret: nilai terhitung, terpisah
  • Data kontinu: besaran terukur dengan rentang nilai

Statistik deskriptif

  • Meringkas data untuk menampilkan tren, pola, dan outlier
  • Contoh: mean, median, distribusi frekuensi

Data diskret vs. kontinu

1 Gambar: AgencyAnalytics
Visualisasi Data di Databricks

Databricks untuk visualisasi data

Manfaat:

  • Mengelola dataset besar secara efisien
  • Opsi visualisasi bawaan
  • Dasbor interaktif
  • Lingkungan kolaboratif

Contoh Dasbor Databricks yang menampilkan visualisasi interaktif, insight data real-time, dan widget yang dapat disesuaikan untuk analisis data dan pengambilan keputusan yang efektif.

Visualisasi Data di Databricks

Memahami dataset kita

Dataset: Dataset Taksi NYC dari Databricks

Berisi: lokasi naik/turun, waktu, jarak, dan tarif

Nama Kolom Detail
tpep_pickup_datetime Tanggal dan waktu saat perjalanan dimulai
tpep_dropoff_datetime Tanggal dan waktu saat perjalanan berakhir
trip_distance Jarak perjalanan (mil)
fare_amount Tarif perjalanan (dolar)
pickup_zip Kode ZIP lokasi penjemputan
dropoff_zip Kode ZIP lokasi penurunan
Visualisasi Data di Databricks

Ayo berlatih!

Visualisasi Data di Databricks

Preparing Video For Download...