Pulizia e filtro dei dati

Trasforma e analizza i dati con Microsoft Fabric

Luis Silva

Solution Architect - Data & AI

Strumenti per la pulizia dei dati

 

 

Icone di tre strumenti: SQL, Spark e Dataflows

Trasforma e analizza i dati con Microsoft Fabric

Gestire righe vuote

  • Rimuovi righe quando l'intera riga è vuota

 

Diagramma con una tabella con diverse righe vuote trasformata in una tabella senza righe vuote

Trasforma e analizza i dati con Microsoft Fabric

Gestire righe vuote con Dataflows

  • Trasformazione Rimuovi righe vuote

 

Schermata delle opzioni Rimuovi righe in Dataflow, con l'opzione per rimuovere righe vuote e una tabella prima/dopo

Trasforma e analizza i dati con Microsoft Fabric

Gestire righe vuote con Spark

  • Funzione DataFrame dropna( )
  • Puoi rimuovere righe con qualsiasi valore nullo o con tutti valori nulli

Esempio di tabella prima/dopo con due varianti della funzione dropna

Trasforma e analizza i dati con Microsoft Fabric

Gestire righe duplicate

  • Rimuovi righe duplicate

 

Diagramma con una tabella con una riga duplicata trasformata in una tabella dove un duplicato è stato rimosso

Trasforma e analizza i dati con Microsoft Fabric

Gestire righe duplicate con Dataflows

  • Trasformazione Rimuovi duplicati

 

Schermata delle opzioni Rimuovi righe in Dataflow, con l'opzione per rimuovere duplicati, e una tabella prima/dopo

Trasforma e analizza i dati con Microsoft Fabric

Gestire righe duplicate con Spark

  • Funzione DataFrame dropDuplicates( )

 

Diagramma con una tabella con una riga duplicata trasformata in una tabella dove un duplicato è stato rimosso dopo la funzione dropDuplicates del dataframe

Trasforma e analizza i dati con Microsoft Fabric

Sostituzione dei valori

  • Sostituisci i valori di una colonna con altri valori.
  • Puoi anche riempire le celle vuote con un valore.

 

Diagramma con una tabella dove il valore ABC in alcune righe è sostituito con XYA.

Trasforma e analizza i dati con Microsoft Fabric

Sostituire valori con Dataflows

  • Trasformazione Sostituisci valori

 

Schermata della trasformazione Sostituisci valori in Dataflow, con esempio di tabella prima/dopo che cambia i vuoti in '(Unknown)'

Trasforma e analizza i dati con Microsoft Fabric

Sostituire valori con Spark

  • Funzione DataFrame replace( )

 

Diagramma con una tabella dove il valore N/A in alcune righe è sostituito con la stringa 'Unknown' dopo la funzione PySpark replace

Trasforma e analizza i dati con Microsoft Fabric

Correggere i tipi di dati

  • Coerenza dei tipi di dati nel modello
  • Permette il confronto tra valori

Immagine di una colonna con numeri salvati come testo convertiti in numeri reali

Trasforma e analizza i dati con Microsoft Fabric

Correggere i tipi di dati

  • Coerenza dei tipi di dati nel modello.
  • Permette il confronto tra valori.
  • Abilita operazioni specifiche per tipo.
    • Operazioni aritmetiche su colonne numeriche.
    • Operazioni data/ora su colonne data/ora.

Esempi di trasformazioni su una colonna testo (minuscolo, maiuscolo, trim) e su una numerica (somma, massimo)

Trasforma e analizza i dati con Microsoft Fabric

Correggere i tipi di dati con Dataflows

  • Menu contestuale (opzione 1):
    1. Seleziona una colonna nella vista dati.
    2. Clicca l'icona a sinistra dell'intestazione colonna.

Schermata con l'icona a sinistra dell'intestazione che apre il menu Cambia tipo

Trasforma e analizza i dati con Microsoft Fabric

Correggere i tipi di dati con Dataflows

  • Menu contestuale (opzione 1):
    1. Seleziona una colonna nella vista dati.
    2. Clicca l'icona a sinistra dell'intestazione colonna.
    3. Scegli un nuovo tipo di dato dall'elenco.

Schermata del menu Cambia tipo disponibile cliccando il tipo dati nell'intestazione di una colonna

Trasforma e analizza i dati con Microsoft Fabric

Correggere i tipi di dati con Dataflows

  • Menu contestuale (opzione 2):
    1. Seleziona una colonna nella vista dati.
    2. Clic destro sull'intestazione colonna.

Schermata che evidenzia l'intestazione della colonna di cui vuoi cambiare il tipo dati

Trasforma e analizza i dati con Microsoft Fabric

Correggere i tipi di dati con Dataflows

  • Aggiungi una trasformazione:
    1. Seleziona una colonna nella vista dati.
    2. Aggiungi una trasformazione cliccando (+) nella vista diagramma.
    3. Clicca Cambia tipo nel menu e scegli un nuovo tipo dall'elenco.

Schermata che mostra una query mentre si aggiunge la trasformazione Cambia tipo

Trasforma e analizza i dati con Microsoft Fabric

Correggere i tipi di dati con Spark

  • Funzione DataFrame cast( )
df.withColumn("new_column_name", df["column_name"].cast("new_data_type"))
  • Esempio:
# Converti la colonna [orderID] in integer
df = df.withColumn("orderID", df["orderID"].cast("integer"))
Trasforma e analizza i dati con Microsoft Fabric

Filtrare i dati

  • Includi o escludi righe in base a una condizione.
SELECT
  OrderID, State, Date, Amount
FROM
  Orders 
WHERE
  State = 'NY'

Diagramma che mostra una tabella che filtra le righe non relative allo stato NY

Trasforma e analizza i dati con Microsoft Fabric

Filtrare i dati con Dataflows

  • Usa la trasformazione Filtro

Schermata del filtro applicato a una colonna

Trasforma e analizza i dati con Microsoft Fabric

Filtrare i dati con Spark

  • Funzione DataFrame filter( )
  • where( ) è un alias di filter( )
df.filter( <condition> )
  • Esempio:
# Restituisce solo le righe con State = 'NY'
df.filter( df.state == 'NY' )
Trasforma e analizza i dati con Microsoft Fabric

Passons à la pratique !

Trasforma e analizza i dati con Microsoft Fabric

Preparing Video For Download...