Veri işleme teknikleri

PySpark ile Veri Temizleme

Mike Metzger

Data Engineering Consultant

Neyi ayrıştırıyoruz?

Hatalı veriler
- Boş satırlar
- Yorum satırları
- Başlıklar
İç içe yapılar
- Birden çok ayraç
Düzenli olmayan veri
- Satır başına değişen sütun sayısı
CSV verisine odaklı

width, height, image

# This is a comment

200    300    affenpinscher;0

600    450    Collie;307    Collie;101
600    449    Japanese_spaniel;23

Stanford ImageNet açıklamaları

Görsellerde köpek ırklarını tanımlar
Görselde bulunan tüm köpeklerin listesini verir
Diğer üst veriler (ana klasör, görsel boyutu vb.)

Örnek satırlar:

02111277    n02111277_3206    500    375    Newfoundland,110,73,416,298
02108422    n02108422_4375    500    375    bull_mastiff,101,90,214,356 \
 bull_mastiff,282,74,416,370

Boş satırları, başlıkları ve yorumları kaldırma

Spark'ın CSV ayrıştırıcısı:

Boş satırları otomatik kaldırır
İsteğe bağlı argümanla yorumları kaldırır

df1 = spark.read.csv('datafile.csv.gz', comment='#')

Başlık alanlarını işler
- Argümanla tanımlanır
- Şema tanımlıysa yok sayılır

df1 = spark.read.csv('datafile.csv.gz', header='True')

Otomatik sütun oluşturma

Spark şunları yapar:

sep argümanına göre DataFrame'de sütunları otomatik oluşturur
```
df1 = spark.read.csv('datafile.csv.gz', sep=',')
```
Varsayılan ayraç ,

sep dizgede yoksa da ayrıştırabilir

df1 = spark.read.csv('datafile.csv.gz', sep='*')

Veriyi varsayılan _c0 sütununda tutar
İç içe ayraçları doğru yönetmenizi sağlar

Hadi pratik yapalım!

PySpark ile Veri Temizleme