Veri işleme teknikleri

PySpark ile Veri Temizleme

Mike Metzger

Data Engineering Consultant

Neyi ayrıştırıyoruz?

  • Hatalı veriler
    • Boş satırlar
    • Yorum satırları
    • Başlıklar
  • İç içe yapılar
    • Birden çok ayraç
  • Düzenli olmayan veri
    • Satır başına değişen sütun sayısı
  • CSV verisine odaklı
width, height, image

# This is a comment
200    300    affenpinscher;0
600    450    Collie;307    Collie;101
600    449    Japanese_spaniel;23
PySpark ile Veri Temizleme

Stanford ImageNet açıklamaları

  • Görsellerde köpek ırklarını tanımlar
  • Görselde bulunan tüm köpeklerin listesini verir
  • Diğer üst veriler (ana klasör, görsel boyutu vb.)

Örnek satırlar:

02111277    n02111277_3206    500    375    Newfoundland,110,73,416,298
02108422    n02108422_4375    500    375    bull_mastiff,101,90,214,356 \
 bull_mastiff,282,74,416,370
PySpark ile Veri Temizleme

Boş satırları, başlıkları ve yorumları kaldırma

Spark'ın CSV ayrıştırıcısı:

  • Boş satırları otomatik kaldırır
  • İsteğe bağlı argümanla yorumları kaldırır
df1 = spark.read.csv('datafile.csv.gz', comment='#')
  • Başlık alanlarını işler
    • Argümanla tanımlanır
    • Şema tanımlıysa yok sayılır
df1 = spark.read.csv('datafile.csv.gz', header='True')
PySpark ile Veri Temizleme

Otomatik sütun oluşturma

Spark şunları yapar:

  • sep argümanına göre DataFrame'de sütunları otomatik oluşturur
    df1 = spark.read.csv('datafile.csv.gz', sep=',')
    
  • Varsayılan ayraç ,
  • sep dizgede yoksa da ayrıştırabilir
    df1 = spark.read.csv('datafile.csv.gz', sep='*')
    
  • Veriyi varsayılan _c0 sütununda tutar
  • İç içe ayraçları doğru yönetmenizi sağlar
PySpark ile Veri Temizleme

Hadi pratik yapalım!

PySpark ile Veri Temizleme

Preparing Video For Download...