Gegevens aggregeren

Gegevens transformeren en analyseren met Microsoft Fabric

Luis Silva

Solution Architect - Data & AI

Wanneer moet je data aggregeren?

Verminder rijen in een dataset met aggregatiefuncties voor samenvattingen.
- Aantal
- Sommeer
- Gemiddelde
- Maximum
- Minimum

Wanneer moet je data aggregeren?

Verminder rijen in een dataset met aggregatiefuncties voor samenvattingen.
- Aantal
- Sommeer
- Gemiddelde
- Maximum
- Minimum

Tabel met verkooporders per staat geaggregeerd tot een nieuwe tabel met het totaal aantal orders en het totale verkoopbedrag per staat

Tools voor data-aggregatie

Pictogrammen van drie tools: SQL, Spark en Dataflows

Data aggregeren met SQL

Veelgebruikte SQL-aggregatiefuncties:
- SUM()
- COUNT()
- AVG()
- MIN()
- MAX()
Meestal samen met GROUP BY
Statistische functies
- STDEV()
- VAR()

SELECT
  <unaggregated columns>,
  function(<aggregated column>)
FROM 
  <table>
GROUP BY 
  <unaggregated columns>;

Data aggregeren met SQL

SELECT 
  [State], 
  COUNT([Order_ID]) AS [Num Orders], 
  SUM([Order_Amount]) AS [Total Amount]
FROM 
  [tbl_Orders]
GROUP BY 
  [State]

Tabel met verkooporders per staat geaggregeerd tot een nieuwe tabel met het totaal aantal orders en het totale verkoopbedrag per staat

Data aggregeren met Spark

Veelgebruikte PySpark-aggregatiefuncties:
- sum()
- count()
- avg()
- min() en max()
- first() en last()
Statistische functies
- stdev()
- variance()
Gebruikt met groupBy() en agg()

df.groupBy(<unaggregated columns>)
.agg(function(<aggregated column>))

Data aggregeren met Spark

Tabel met verkooporders per staat geaggregeerd tot een nieuwe tabel met het totaal aantal orders en het totale verkoopbedrag per staat

from pyspark.sql.functions import sum

df.groupBy("state").agg(count("order_id"), sum("order_amount")).show()

Data aggregeren met Spark

Aggregatiefuncties moet je importeren uit pyspark.sql.functions met een statement aan het begin van je code.

#----- Importeer één of meerdere functies:
from pyspark.sql.functions import sum, avg, count, min, max

#----- Importeer alle SQL-functies:
from pyspark.sql.functions import * 

#----- Importeer alle SQL-functies met een alias:
import pyspark.sql.functions as F
# call sum: F.sum()

Data aggregeren met Dataflows

Groeperen op-transformatie
- Som
- Gemiddelde
- Mediaan
- Min
- Max
- Percentiel
- Rijen tellen

Schermafbeelding van het dialoogvenster Groeperen op in Dataflows

Data aggregeren met Dataflows

Schermafbeelding van Groeperen op in een Dataflow, met groeperen op staat en twee aggregaties: aantal rijen en som van de kolom order_amount

Tabel met verkooporders per staat geaggregeerd tot een nieuwe tabel met het totaal aantal orders en het totale verkoopbedrag per staat

Laten we oefenen!

Gegevens transformeren en analyseren met Microsoft Fabric