Introductie tot datavisualisatie

Datavisualisatie in Databricks

Gang Wang

Senior Data Scientist

Je partner in datavisualisatie

       

       

Gang Wang

Senior Data Scientist

Origin Energy, Australië (2021-heden)

9+ jaar ervaring na PhD

Datavisualisatie in Databricks

Wat is datavisualisatie?

 

Datavisualisatie is het weergeven van data in visuele vorm.

Vormen: grafieken, diagrammen, kaarten en infographics.

Hoofddoel:

  • Maak complexe data toegankelijker.
  • Verbeter begrip en bruikbaarheid.

Een lijngrafiek toont hoe het bbp per hoofd door de tijd verandert.

Een staafdiagram toont de demografische verdeling per land.

1 Afbeeldingen: Economist Writing Every Day, The Economist
Datavisualisatie in Databricks

Waarom hebben we datavisualisatie nodig?

Voordelen:

  • Vereenvoudigt complexe data
  • Benadrukt patronen en trends
  • Verbetert visuele verwerking
  • Verhoogt begrip en onthouden
  • Ondersteunt beslissingen en planning
  • Vergroot datatoegankelijkheid en samenwerking

Een conceptuele illustratie van datavisualisatie: vereenvoudigt complexe data, benadrukt trends en ondersteunt besluitvorming door info toegankelijker en begrijpelijker te maken.

1 Afbeeldingen: Kovair
Datavisualisatie in Databricks

Belangrijke statistische concepten voor visualisatie

Discrete versus continue data

  • Discrete data: telbaar, afzonderlijke waarden
  • Continue data: meetbare grootheden met een waardebereik

Beschrijvende statistiek

  • Vat data samen om trends, patronen en uitschieters te tonen
  • Voorbeelden: gemiddelde, mediaan, frequentieverdelingen

Discrete vs. continue data

1 Afbeeldingen: AgencyAnalytics
Datavisualisatie in Databricks

Databricks voor datavisualisatie

Voordelen:

  • Efficiënt werken met grote datasets
  • Ingebouwde visualisatieopties
  • Interactieve dashboards
  • Samenwerkingsomgeving

Voorbeeld van een Databricks-dashboard met interactieve visualisaties, realtime inzichten en aanpasbare widgets voor effectieve data-analyse en besluitvorming.

Datavisualisatie in Databricks

Ons dataset begrijpen

Dataset: NYC Taxi-dataset van Databricks

Bevat: ophaal- en afzetlocaties, tijden, afstand en ritprijs

Kolomnaam Details
tpep_pickup_datetime Datum en tijd waarop de rit begon
tpep_dropoff_datetime Datum en tijd waarop de rit eindigde
trip_distance Ritafstand in mijlen
fare_amount Ritprijs in dollars
pickup_zip Postcode waar de passagier instapte
dropoff_zip Postcode waar de passagier uitstapte
Datavisualisatie in Databricks

Laten we oefenen!

Datavisualisatie in Databricks

Preparing Video For Download...