Aggregazione dei dati

Trasforma e analizza i dati con Microsoft Fabric

Luis Silva

Solution Architect - Data & AI

Quando aggregare i dati?

  • Riduci il numero di righe in un dataset usando funzioni di aggregazione per creare riepiloghi.
    • Conteggio
    • Somma
    • Media
    • Massimo
    • Minimo
Trasforma e analizza i dati con Microsoft Fabric

Quando aggregare i dati?

  • Riduci il numero di righe in un dataset usando funzioni di aggregazione per creare riepiloghi.
    • Conteggio
    • Somma
    • Media
    • Massimo
    • Minimo

Tabella con ordini per stato aggregati in una nuova tabella con numero totale di ordini e importo totale per stato

Trasforma e analizza i dati con Microsoft Fabric

Strumenti per aggregare i dati

 

 

Icone di tre strumenti: SQL, Spark e Dataflows

Trasforma e analizza i dati con Microsoft Fabric

Aggregare dati con SQL

  • Funzioni di aggregazione SQL comuni:
    • SUM()
    • COUNT()
    • AVG()
    • MIN()
    • MAX()
  • Di solito in combinazione con GROUP BY
  • Funzioni statistiche
    • STDEV()
    • VAR()
SELECT
  <unaggregated columns>,
  function(<aggregated column>)
FROM 
  <table>
GROUP BY 
  <unaggregated columns>;
Trasforma e analizza i dati con Microsoft Fabric

Aggregare dati con SQL

SELECT 
  [State], 
  COUNT([Order_ID]) AS [Num Orders], 
  SUM([Order_Amount]) AS [Total Amount]
FROM 
  [tbl_Orders]
GROUP BY 
  [State]

Tabella con ordini per stato aggregati in una nuova tabella con numero totale di ordini e importo totale per stato

Trasforma e analizza i dati con Microsoft Fabric

Aggregare dati con Spark

  • Funzioni di aggregazione comuni in PySpark:
    • sum()
    • count()
    • avg()
    • min() e max()
    • first() e last()
  • Funzioni statistiche
    • stdev()
    • variance()
  • Usate con groupBy() e agg()
df.groupBy(<unaggregated columns>)
.agg(function(<aggregated column>))

Trasforma e analizza i dati con Microsoft Fabric

Aggregare dati con Spark

Tabella con ordini per stato aggregati in una nuova tabella con numero totale di ordini e importo totale per stato

from pyspark.sql.functions import sum

df.groupBy("state").agg(count("order_id"), sum("order_amount")).show()
Trasforma e analizza i dati con Microsoft Fabric

Aggregare dati con Spark

  • Le funzioni di aggregazione vanno importate da pyspark.sql.functions con un'istruzione all'inizio del codice.
#----- Importa una o più funzioni:
from pyspark.sql.functions import sum, avg, count, min, max

#----- Importa tutte le funzioni SQL:
from pyspark.sql.functions import * 

#----- Importa tutte le funzioni SQL con alias:
import pyspark.sql.functions as F
# chiama sum: F.sum()
Trasforma e analizza i dati con Microsoft Fabric

Aggregare dati con Dataflows

  • Trasformazione Group by
    • Sum
    • Average
    • Median
    • Min
    • Max
    • Percentile
    • Count rows

Schermata della finestra Group by in Dataflows

Trasforma e analizza i dati con Microsoft Fabric

Aggregare dati con Dataflows

Schermata della finestra Group by in un Dataflow, con raggruppamento per stato e due aggregazioni: conteggio righe e somma della colonna order amount

Tabella con ordini per stato aggregati in una nuova tabella con numero totale di ordini e importo totale per stato

Trasforma e analizza i dati con Microsoft Fabric

¡Vamos a practicar!

Trasforma e analizza i dati con Microsoft Fabric

Preparing Video For Download...