Gegevens aggregeren

Gegevens transformeren en analyseren met Microsoft Fabric

Luis Silva

Solution Architect - Data & AI

Wanneer moet je data aggregeren?

  • Verminder rijen in een dataset met aggregatiefuncties voor samenvattingen.
    • Aantal
    • Sommeer
    • Gemiddelde
    • Maximum
    • Minimum
Gegevens transformeren en analyseren met Microsoft Fabric

Wanneer moet je data aggregeren?

  • Verminder rijen in een dataset met aggregatiefuncties voor samenvattingen.
    • Aantal
    • Sommeer
    • Gemiddelde
    • Maximum
    • Minimum

Tabel met verkooporders per staat geaggregeerd tot een nieuwe tabel met het totaal aantal orders en het totale verkoopbedrag per staat

Gegevens transformeren en analyseren met Microsoft Fabric

Tools voor data-aggregatie

 

 

Pictogrammen van drie tools: SQL, Spark en Dataflows

Gegevens transformeren en analyseren met Microsoft Fabric

Data aggregeren met SQL

  • Veelgebruikte SQL-aggregatiefuncties:
    • SUM()
    • COUNT()
    • AVG()
    • MIN()
    • MAX()
  • Meestal samen met GROUP BY
  • Statistische functies
    • STDEV()
    • VAR()
SELECT
  <unaggregated columns>,
  function(<aggregated column>)
FROM 
  <table>
GROUP BY 
  <unaggregated columns>;
Gegevens transformeren en analyseren met Microsoft Fabric

Data aggregeren met SQL

SELECT 
  [State], 
  COUNT([Order_ID]) AS [Num Orders], 
  SUM([Order_Amount]) AS [Total Amount]
FROM 
  [tbl_Orders]
GROUP BY 
  [State]

Tabel met verkooporders per staat geaggregeerd tot een nieuwe tabel met het totaal aantal orders en het totale verkoopbedrag per staat

Gegevens transformeren en analyseren met Microsoft Fabric

Data aggregeren met Spark

  • Veelgebruikte PySpark-aggregatiefuncties:
    • sum()
    • count()
    • avg()
    • min() en max()
    • first() en last()
  • Statistische functies
    • stdev()
    • variance()
  • Gebruikt met groupBy() en agg()
df.groupBy(<unaggregated columns>)
.agg(function(<aggregated column>))

Gegevens transformeren en analyseren met Microsoft Fabric

Data aggregeren met Spark

Tabel met verkooporders per staat geaggregeerd tot een nieuwe tabel met het totaal aantal orders en het totale verkoopbedrag per staat

from pyspark.sql.functions import sum

df.groupBy("state").agg(count("order_id"), sum("order_amount")).show()
Gegevens transformeren en analyseren met Microsoft Fabric

Data aggregeren met Spark

  • Aggregatiefuncties moet je importeren uit pyspark.sql.functions met een statement aan het begin van je code.
#----- Importeer één of meerdere functies:
from pyspark.sql.functions import sum, avg, count, min, max

#----- Importeer alle SQL-functies:
from pyspark.sql.functions import * 

#----- Importeer alle SQL-functies met een alias:
import pyspark.sql.functions as F
# call sum: F.sum()
Gegevens transformeren en analyseren met Microsoft Fabric

Data aggregeren met Dataflows

  • Groeperen op-transformatie
    • Som
    • Gemiddelde
    • Mediaan
    • Min
    • Max
    • Percentiel
    • Rijen tellen

Schermafbeelding van het dialoogvenster Groeperen op in Dataflows

Gegevens transformeren en analyseren met Microsoft Fabric

Data aggregeren met Dataflows

Schermafbeelding van Groeperen op in een Dataflow, met groeperen op staat en twee aggregaties: aantal rijen en som van de kolom order_amount

Tabel met verkooporders per staat geaggregeerd tot een nieuwe tabel met het totaal aantal orders en het totale verkoopbedrag per staat

Gegevens transformeren en analyseren met Microsoft Fabric

Laten we oefenen!

Gegevens transformeren en analyseren met Microsoft Fabric

Preparing Video For Download...