Opschonen en filteren van data

Gegevens transformeren en analyseren met Microsoft Fabric

Luis Silva

Solution Architect - Data & AI

Tools voor opschonen van data

 

 

Pictogrammen voor drie tools: SQL, Spark en Dataflows

Gegevens transformeren en analyseren met Microsoft Fabric

Lege rijen afhandelen

  • Verwijder rijen die volledig leeg zijn

 

Diagram met een tabel met meerdere lege rijen die zijn verwijderd

Gegevens transformeren en analyseren met Microsoft Fabric

Lege rijen afhandelen met Dataflows

  • Transformatie Lege rijen verwijderen

 

Screenshot van de menuopties Rij(en) verwijderen in Dataflow, met de optie om lege rijen te verwijderen, plus een tabel met voor/na

Gegevens transformeren en analyseren met Microsoft Fabric

Lege rijen afhandelen met Spark

  • DataFrame-functie dropna( )
  • Verwijder rijen met een of alle null-waarden

Tabelvoorbeeld met voor/na voor twee varianten van dropna

Gegevens transformeren en analyseren met Microsoft Fabric

Dubbele rijen afhandelen

  • Verwijder dubbele rijen

 

Diagram met een tabel met een dubbele rij die is verwijderd zodat één record overblijft

Gegevens transformeren en analyseren met Microsoft Fabric

Dubbele rijen afhandelen met Dataflows

  • Transformatie Dubbelen verwijderen

 

Screenshot van de menuopties Rij(en) verwijderen in Dataflow, met de optie om dubbelen te verwijderen, plus een tabel met voor/na

Gegevens transformeren en analyseren met Microsoft Fabric

Dubbele rijen afhandelen met Spark

  • DataFrame-functie dropDuplicates( )

 

Diagram met een tabel met een dubbele rij die na aanroep van de dataframe-functie dropDuplicates één duplicaat verwijdert

Gegevens transformeren en analyseren met Microsoft Fabric

Waarden vervangen

  • Vervang waarden in een kolom door andere waarden.
  • Ook te gebruiken om lege cellen te vullen.

 

Diagram met een tabel waarin de waarde ABC in enkele records is vervangen door XYA.

Gegevens transformeren en analyseren met Microsoft Fabric

Waarden vervangen met Dataflows

  • Transformatie Waarden vervangen

 

Screenshot van de transformatie Waarden vervangen in Dataflow, met een tabel voor/na waarbij lege waarden zijn vervangen door de string '(Unknown)'

Gegevens transformeren en analyseren met Microsoft Fabric

Waarden vervangen met Spark

  • DataFrame-functie replace( )

 

Diagram met een tabel waarin de waarde N/A in enkele records is vervangen door de string 'Unknown' na aanroep van de PySpark-functie replace

Gegevens transformeren en analyseren met Microsoft Fabric

Datatypen corrigeren

  • Consistente datatypen in het model
  • Maakt vergelijking van waarden mogelijk

Afbeelding van een gegevenskolom met getallen als tekst die wordt geconverteerd naar echte getallen

Gegevens transformeren en analyseren met Microsoft Fabric

Datatypen corrigeren

  • Consistente datatypen in het model.
  • Maakt vergelijking van waarden mogelijk.
  • Ondersteunt type-specifieke bewerkingen.
    • Rekenen op numerieke kolommen.
    • Datum/tijd-bewerkingen op datum/tijd-kolommen.

Voorbeelden van transformaties voor een tekstkolom, zoals lowercase, uppercase en trim, en voor een numerieke kolom, zoals som en maximum

Gegevens transformeren en analyseren met Microsoft Fabric

Datatypen corrigeren met Dataflows

  • Contextmenu (optie 1):
    1. Selecteer een kolom in de dataview.
    2. Klik op het pictogram links van de kolomkop.

Screenshot met het pictogram links van een kolomkop dat toegang geeft tot het contextmenu Type wijzigen

Gegevens transformeren en analyseren met Microsoft Fabric

Datatypen corrigeren met Dataflows

  • Contextmenu (optie 1):
    1. Selecteer een kolom in de dataview.
    2. Klik op het pictogram links van de kolomkop.
    3. Kies een nieuw datatype uit de lijst.

Screenshot van het contextmenu Type wijzigen na klikken op het datatype in de kolomkop in de dataview

Gegevens transformeren en analyseren met Microsoft Fabric

Datatypen corrigeren met Dataflows

  • Contextmenu (optie 2):
    1. Selecteer een kolom in de dataview.
    2. Klik met rechts op de kolomkop.

Screenshot met de kolomkop waarvan we het datatype willen wijzigen

Gegevens transformeren en analyseren met Microsoft Fabric

Datatypen corrigeren met Dataflows

  • Transform toevoegen:
    1. Selecteer een kolom in de dataview.
    2. Voeg een transformatie toe via (+) in de diagramweergave.
    3. Klik op Type wijzigen in het pop-upmenu en kies een nieuw datatype.

Screenshot van een query waar de transform Type wijzigen wordt toegevoegd

Gegevens transformeren en analyseren met Microsoft Fabric

Datatypen corrigeren met Spark

  • DataFrame-functie cast( )
df.withColumn("new_column_name", df["column_name"].cast("new_data_type"))
  • Voorbeeld:
# Converteer de kolom [orderID] naar integer
df = df.withColumn("orderID", df["orderID"].cast("integer"))
Gegevens transformeren en analyseren met Microsoft Fabric

Data filteren

  • Neem rijen op of sluit ze uit op basis van een conditie.
SELECT
  OrderID, State, Date, Amount
FROM
  Orders 
WHERE
  State = 'NY'

Diagram dat een tabel toont die rijen filtert die niet bij de staat NY horen

Gegevens transformeren en analyseren met Microsoft Fabric

Data filteren met Dataflows

  • Gebruik de transformatie Filter

Screenshot van de filtertransformatie toegepast op een kolom

Gegevens transformeren en analyseren met Microsoft Fabric

Data filteren met Spark

  • DataFrame-functie filter( )
  • where( ) is een alias voor filter( )
df.filter( <condition> )
  • Voorbeeld:
# Geef alleen DataFrame-rijen terug waar State = 'NY'
df.filter( df.state == 'NY' )
Gegevens transformeren en analyseren met Microsoft Fabric

Laten we oefenen!

Gegevens transformeren en analyseren met Microsoft Fabric

Preparing Video For Download...