Introduzione alla visualizzazione dei dati

Visualizzazione dei dati in Databricks

Gang Wang

Senior Data Scientist

Il tuo partner per la visualizzazione dei dati

       

       

Gang Wang

Senior Data Scientist

Origin Energy, Australia (2021-oggi)

Oltre 9 anni di esperienza post-PhD

Visualizzazione dei dati in Databricks

Cos'è la visualizzazione dei dati?

 

La visualizzazione dei dati è la rappresentazione dei dati in formato visivo.

Formati: grafici a linee e a barre, mappe, infografiche.

Obiettivo principale:

  • Rendere i dati complessi più accessibili.
  • Migliorare comprensione e usabilità.

Un esempio di grafico a linee mostra come il PIL pro capite è cambiato nel tempo.

Un esempio di grafico a barre mostra la distribuzione demografica in diversi paesi.

1 Immagini: Economist Writing Every Day, The Economist
Visualizzazione dei dati in Databricks

Perché ci serve la visualizzazione dei dati?

Vantaggi:

  • Semplifica dati complessi
  • Evidenzia pattern e trend chiave
  • Potenzia l'elaborazione visiva
  • Migliora comprensione e memoria
  • Supporta decisioni e pianificazione
  • Aumenta accessibilità e collaborazione

Illustrazione concettuale della visualizzazione dei dati: semplifica dati complessi, evidenzia trend chiave e migliora le decisioni rendendo le informazioni più accessibili e comprensibili.

1 Immagini: Kovair
Visualizzazione dei dati in Databricks

Concetti statistici chiave per la visualizzazione

Dati discreti vs continui

  • Discreti: valori contabili e distinti
  • Continui: misure con un intervallo di valori

Statistiche descrittive

  • Riassumono i dati per evidenziare trend, pattern e outlier
  • Esempi: media, mediana, distribuzioni di frequenza

Dati discreti vs continui

1 Immagini: AgencyAnalytics
Visualizzazione dei dati in Databricks

Databricks per la visualizzazione dei dati

Vantaggi:

  • Gestione efficiente di grandi dataset
  • Opzioni di visualizzazione integrate
  • Dashboard interattive
  • Ambiente collaborativo

Esempio di una Dashboard Databricks con visualizzazioni interattive, insight in tempo reale e widget personalizzabili per un'analisi efficace e decisioni informate.

Visualizzazione dei dati in Databricks

Comprendere il nostro dataset

Dataset: NYC Taxi di Databricks

Contiene: luoghi di pick-up/drop-off, orari, distanza e tariffe

Nome colonna Dettagli
tpep_pickup_datetime Data e ora di inizio corsa
tpep_dropoff_datetime Data e ora di fine corsa
trip_distance Distanza della corsa in miglia
fare_amount Tariffa addebitata in dollari
pickup_zip CAP del luogo di partenza
dropoff_zip CAP del luogo di arrivo
Visualizzazione dei dati in Databricks

Ayo berlatih!

Visualizzazione dei dati in Databricks

Preparing Video For Download...