Veri Temizleme ve Filtreleme

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Luis Silva

Solution Architect - Data & AI

Veri temizleme araçları

 

 

Üç aracı temsil eden simgeler: SQL, Spark ve Dataflows

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Boş satırları ele alma

  • Tüm satır boşsa satırı kaldırın

 

Birden çok boş satır içeren bir tablonun, boş satırların kaldırıldığı tabloya dönüştüğünü gösteren diyagram

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Dataflows ile boş satırları ele alma

  • Boş satırları kaldır dönüşümü

 

Dataflow'da Satırları kaldır menü seçeneklerinin ekran görüntüsü; boş satırları kaldır seçeneği vurgulanmış, satırları kaldırmadan önce/sonra tablo örneğiyle

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Spark ile boş satırları ele alma

  • DataFrame dropna( ) işlevi
  • Herhangi bir null değeri içeren veya tümü null olan satırları kaldırabilir

dropna işlevinin iki varyasyonunu kullanarak satırları kaldırmadan önce/sonra tablo örneği

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Yinelenen satırları ele alma

  • Yinelenen satırları kaldırma

 

Yinelenen bir satır içeren bir tablonun, yinelerden birinin kaldırıldığı tabloya dönüştüğünü gösteren diyagram

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Dataflows ile yinelenen satırları ele alma

  • Yineleri kaldır dönüşümü

 

Dataflow'da Satırları kaldır menü seçeneklerinin ekran görüntüsü; yineleri kaldır seçeneği vurgulanmış, satırları kaldırmadan önce/sonra tablo örneğiyle

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Spark ile yinelenen satırları ele alma

  • DataFrame dropDuplicates( ) işlevi

 

Bir tablodaki yinelenen satırın, dataframe dropDuplicates işlevi çağrıldıktan sonra tek kaydın kaldığı tabloya dönüştüğünü gösteren diyagram

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Değerleri değiştirme

  • Bir sütundaki belirli bir değeri başka bir değerle değiştirin.
  • Boş hücreleri bir değerle değiştirmek için de kullanılabilir.

 

Bazı kayıtlardaki ABC değerlerinin XYA ile değiştirildiğini gösteren tablo diyagramı.

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Dataflows ile değerleri değiştirme

  • Değerleri değiştir dönüşümü

 

Dataflow'da Değerleri değiştir dönüşümü menüsünün ekran görüntüsü; boş değerlerin '(Unknown)' metniyle değiştirildiği önce/sonra tablo örneğiyle

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Spark ile değerleri değiştirme

  • DataFrame replace( ) işlevi

 

PySpark replace işlevi çağrıldıktan sonra bazı kayıtlardaki N/A değerlerinin 'Unknown' ile değiştirildiğini gösteren tablo diyagramı

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Veri tiplerini düzeltme

  • Model genelinde veri tipi tutarlılığı
  • Değerler arasında karşılaştırmayı destekler

Metin olarak saklanan sayıları gerçek sayılara dönüştüren bir veri sütununu temsil eden görsel

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Veri tiplerini düzeltme

  • Model genelinde veri tipi tutarlılığı.
  • Değerler arasında karşılaştırmayı destekler.
  • Türe özgü işlemleri destekler.
    • Sayısal sütunlarda aritmetik işlemler.
    • Tarih/saat sütunlarında tarih/saat işlemleri.

Metin sütununda küçük/büyük harf ve kırpma; sayısal sütunda toplam ve maksimum gibi dönüşüm örnekleri

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Dataflows ile veri tiplerini düzeltme

  • Bağlamsal menü (seçenek 1):
    1. Veri görünümünde bir sütun seçin.
    2. Sütun başlığının solundaki simgeye tıklayın.

Veri görünümünde sütun başlığının solundaki, Türü değiştir bağlamsal menüsüne erişen simgeyi vurgulayan ekran görüntüsü

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Dataflows ile veri tiplerini düzeltme

  • Bağlamsal menü (seçenek 1):
    1. Veri görünümünde bir sütun seçin.
    2. Sütun başlığının solundaki simgeye tıklayın.
    3. Listeden yeni bir veri tipi seçin.

Veri görünümünde sütun başlığındaki veri türüne tıklayınca açılan Türü değiştir bağlamsal menüsünün ekran görüntüsü

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Dataflows ile veri tiplerini düzeltme

  • Bağlamsal menü (seçenek 2):
    1. Veri görünümünde bir sütun seçin.
    2. Sütun başlığına sağ tıklayın.

Veri tipini değiştirmek istediğimiz bir sütunun başlığını vurgulayan ekran görüntüsü

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Dataflows ile veri tiplerini düzeltme

  • Dönüşüm ekleyin:
    1. Veri görünümünde bir sütun seçin.
    2. Diyagram görünümünde (+) ile dönüşüm ekleyin.
    3. Açılır menüden Türü değiştir'e tıklayın ve listeden yeni bir veri tipi seçin.

Tür Değiştir dönüşümünün eklendiği bir sorguyu gösteren ekran görüntüsü

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Spark ile veri tiplerini düzeltme

  • DataFrame cast( ) işlevi
df.withColumn("new_column_name", df["column_name"].cast("new_data_type"))
  • Örnek:
# [orderID] sütununu tamsayıya dönüştürün
df = df.withColumn("orderID", df["orderID"].cast("integer"))
Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Veri filtreleme

  • Koşula göre satırları dahil edin veya hariç tutun.
SELECT
  OrderID, State, Date, Amount
FROM
  Orders 
WHERE
  State = 'NY'

NY eyaletiyle ilgili olmayan satırları filtreleyen bir tabloyu gösteren diyagram

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Dataflows ile veri filtreleme

  • Filter dönüşümünü kullanın

Bir sütuna uygulanan filtre dönüşümünün ekran görüntüsü

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Spark ile veri filtreleme

  • DataFrame filter( ) işlevi
  • where( ), filter( ) için bir diğer addır
df.filter( <condition> )
  • Örnek:
# Yalnızca State = 'NY' olan DataFrame satırlarını döndürür
df.filter( df.state == 'NY' )
Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Passons à la pratique !

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Preparing Video For Download...