Agregasi Data

Transformasi dan Analisis Data dengan Microsoft Fabric

Luis Silva

Solution Architect - Data & AI

Kapan harus mengagregasi data?

  • Ringkas jumlah baris dalam dataset dengan fungsi agregasi untuk membuat ringkasan.
    • Hitung
    • Jumlahkan
    • Rata-rata
    • Maksimum
    • Minimum
Transformasi dan Analisis Data dengan Microsoft Fabric

Kapan harus mengagregasi data?

  • Ringkas jumlah baris dalam dataset dengan fungsi agregasi untuk membuat ringkasan.
    • Hitung
    • Jumlahkan
    • Rata-rata
    • Maksimum
    • Minimum

Tabel pesanan per negara bagian yang diagregasi menjadi tabel baru berisi total jumlah pesanan dan total nilai penjualan per negara bagian

Transformasi dan Analisis Data dengan Microsoft Fabric

Alat untuk mengimplementasikan agregasi data

 

 

Ikon untuk tiga alat: SQL, Spark, dan Dataflows

Transformasi dan Analisis Data dengan Microsoft Fabric

Agregasi data dengan SQL

  • Fungsi agregasi SQL umum:
    • SUM()
    • COUNT()
    • AVG()
    • MIN()
    • MAX()
  • Biasanya digunakan dengan GROUP BY
  • Fungsi statistik
    • STDEV()
    • VAR()
SELECT
  <unaggregated columns>,
  function(<aggregated column>)
FROM 
  <table>
GROUP BY 
  <unaggregated columns>;
Transformasi dan Analisis Data dengan Microsoft Fabric

Agregasi data dengan SQL

SELECT 
  [State], 
  COUNT([Order_ID]) AS [Num Orders], 
  SUM([Order_Amount]) AS [Total Amount]
FROM 
  [tbl_Orders]
GROUP BY 
  [State]

Tabel pesanan per negara bagian yang diagregasi menjadi tabel baru berisi total jumlah pesanan dan total nilai penjualan per negara bagian

Transformasi dan Analisis Data dengan Microsoft Fabric

Agregasi data dengan Spark

  • Fungsi agregasi PySpark umum:
    • sum()
    • count()
    • avg()
    • min() dan max()
    • first() dan last()
  • Fungsi statistik
    • stdev()
    • variance()
  • Dipakai dengan groupBy() dan agg()
df.groupBy(<unaggregated columns>)
.agg(function(<aggregated column>))

Transformasi dan Analisis Data dengan Microsoft Fabric

Agregasi data dengan Spark

Tabel pesanan per negara bagian yang diagregasi menjadi tabel baru berisi total jumlah pesanan dan total nilai penjualan per negara bagian

from pyspark.sql.functions import sum

df.groupBy("state").agg(count("order_id"), sum("order_amount")).show()
Transformasi dan Analisis Data dengan Microsoft Fabric

Agregasi data dengan Spark

  • Fungsi agregasi harus diimpor dari pyspark.sql.functions dengan menambahkan pernyataan di awal kode.
#----- Impor satu atau beberapa fungsi:
from pyspark.sql.functions import sum, avg, count, min, max

#----- Impor semua fungsi SQL:
from pyspark.sql.functions import * 

#----- Impor semua fungsi SQL dengan alias:
import pyspark.sql.functions as F
# panggil sum: F.sum()
Transformasi dan Analisis Data dengan Microsoft Fabric

Agregasi data dengan Dataflows

  • Transformasi Group by
    • Sum
    • Average
    • Median
    • Min
    • Max
    • Percentile
    • Count rows

Tangkapan layar dialog Group by di Dataflows

Transformasi dan Analisis Data dengan Microsoft Fabric

Agregasi data dengan Dataflows

Tangkapan layar dialog Group by di Dataflow, mengelompokkan berdasarkan state dan dua agregasi: hitung baris dan jumlah kolom order amount

Tabel pesanan per negara bagian yang diagregasi menjadi tabel baru berisi total jumlah pesanan dan total nilai penjualan per negara bagian

Transformasi dan Analisis Data dengan Microsoft Fabric

Ayo berlatih!

Transformasi dan Analisis Data dengan Microsoft Fabric

Preparing Video For Download...