Data-exploratie en -transformatie

Gegevens transformeren en analyseren met Microsoft Fabric

Luis Silva

Solution Architect - Data & AI

Scenario’s voor datatransformatie

Waarom data transformeren?

  • Verwijder of schoon foutieve data uit bronsystemen

Afbeelding van een datatabel met ongeldige waarden rood gemarkeerd

Gegevens transformeren en analyseren met Microsoft Fabric

Scenario’s voor datatransformatie

Waarom data transformeren?

  • Verwijder of schoon foutieve data uit bronsystemen.
  • Converteer datatypes voor consistentie.

Afbeelding van een kolom met nummers als tekst die wordt geconverteerd naar echte nummers

Gegevens transformeren en analyseren met Microsoft Fabric

Scenario’s voor datatransformatie

Waarom data transformeren?

  • Verwijder of schoon foutieve data uit bronsystemen.
  • Converteer datatypes voor consistentie.
  • Filter irrelevante data.

Afbeelding met een tabel vóór en na het filteren van rijen die niet aan een criterium voldoen; hier blijven alleen records over waar een veld niet gelijk is aan 'X'

Gegevens transformeren en analyseren met Microsoft Fabric

Scenario’s voor datatransformatie

Waarom data transformeren?

  • Verwijder of schoon foutieve data uit bronsystemen.
  • Converteer datatypes voor consistentie.
  • Filter irrelevante data.
  • Combineer data uit meerdere bronnen.

Diagram dat twee tabellen toont die worden samengevoegd tot één-

Gegevens transformeren en analyseren met Microsoft Fabric

Scenario’s voor datatransformatie

Waarom data transformeren?

  • Verwijder of schoon foutieve data uit bronsystemen.
  • Converteer datatypes voor consistentie.
  • Filter irrelevante data.
  • Combineer data uit meerdere bronnen.
  • Zet data om naar een formaat dat beter is voor analyse en rapportage.

Diagram dat een grote tabel toont die wordt omgezet naar een sterrenmodel

Gegevens transformeren en analyseren met Microsoft Fabric

Data opschonen

  • Verminder irrelevante rijen (bovenste/onderste rijen verwijderen)
  • Verwijder duplicaten
  • Verwijder lege rijen
  • Verwijder foutieve rijen
  • Converteer datatypes

Afbeelding van brontabel met ongeldige waarden rood gemarkeerd en pijl die aangeeft dat deze records uit de doeltabel worden verwijderd

Gegevens transformeren en analyseren met Microsoft Fabric

Data filteren

  • Datasets verkleinen

    • Selecteer alleen een subset
    • Verwijder records die niet aan criteria voldoen
  • Voorbeeld: SQL WHERE-clausule

Screenshot van een query die Orders selecteert waar de kolom State gelijk is aan NY

Diagram dat een tabel toont die rijen wegfiltert die niet over de staat NY gaan

Gegevens transformeren en analyseren met Microsoft Fabric

Data mergen en joinen

  • Join twee of meer datasets
  • Handig voor sterrenmodellen bouwen

Diagram dat het samenvoegen van twee tabellen illustreert

Gegevens transformeren en analyseren met Microsoft Fabric

Data-aggregratie en de-aggregratie

  • Aggreren: data samenvoegen en samenvatten

Tabel met verkooporders per staat geaggregeerd naar totaal aantal orders en omzet per staat

  • De-aggregatie: data splitsen, vaak één kolom naar meerdere kolommen

Tabel met vestigingen waar locatie (stad, staat) is opgesplitst in aparte kolommen stad en staat

Gegevens transformeren en analyseren met Microsoft Fabric

Tools voor data-exploratie en -transformatie

  • Dataflows
  • Data Wrangler

Twee screenshots naast elkaar met de GUI van dataflows en data wrangler

  • Spark-notebooks
  • SQL-scripts

Twee screenshots naast elkaar: een Spark-notebook en een SQL-script

Gegevens transformeren en analyseren met Microsoft Fabric

Dataflows

  • Low-code GUI
  • Opschonen
  • Filteren
  • Aggrereren

Screenshot van de Dataflow-designer met voorbeeldqueries en transformatieopties

Gegevens transformeren en analyseren met Microsoft Fabric

Data Wrangler

  • Notebook-tool voor exploratieve data-analyse
  • Datagrid-weergave
  • Dynamische samenvattingsstatistieken
  • Ingebouwde visualisaties
  • Bibliotheek met vaak gebruikte opschoonacties

Screenshot van de Data Wrangler-interface met voorbeeldbewerkingen

Gegevens transformeren en analyseren met Microsoft Fabric

Spark-notebooks

  • Meerdere talen
  • Python-bibliotheken voor datamanipulatie
    • PySpark voor grote datasets
    • Pandas voor kleinere datasets

Screenshot van een Spark-notebook met voorbeeld-PySpark-code

Gegevens transformeren en analyseren met Microsoft Fabric

SQL-scripts

  • T-SQL-instructies voor datamanipulatie: SELECT, INSERT, UPDATE, DELETE
  • JOIN om data te combineren
  • CAST en CONVERT voor datatypeconversie

Screenshot van de SQL-editor met een voorbeeld van een SELECT-query

Gegevens transformeren en analyseren met Microsoft Fabric

Laten we oefenen!

Gegevens transformeren en analyseren met Microsoft Fabric

Preparing Video For Download...