Apache Spark ile veri temizlemeye giriş

PySpark ile Veri Temizleme

Mike Metzger

Data Engineering Consultant

Veri Temizleme Nedir?

Veri Temizleme: Ham veriyi veri işleme hatlarında kullanılmak üzere hazırlama.

Veri temizlemede olası görevler:

  • Metni yeniden biçimlendirme veya değiştirme
  • Hesaplamalar yapma
  • Çöp veya eksik veriyi kaldırma
PySpark ile Veri Temizleme

Neden veri temizliği için Spark?

Tipik veri sistemlerindeki sorunlar:

  • Performans
  • Veri akışını düzenleme

Spark’ın avantajları:

  • Ölçeklenebilir
  • Veri işleme için güçlü bir çerçeve
PySpark ile Veri Temizleme

Veri temizleme örneği

Ham veri:

name age (years) city
Smith, John 37 Dallas
Wilson, A. 59 Chicago
null 215

Temizlenmiş veri:

last name first name age (months) state
Smith John 444 TX
Wilson A. 708 IL
PySpark ile Veri Temizleme

Spark Şemaları

  • Bir DataFrame’in biçimini tanımlar
  • Çeşitli veri türleri içerebilir:
    • String, tarih, tamsayı, dizi
  • İçe aktarma sırasında çöp veriyi filtreleyebilir
  • Okuma performansını artırır
PySpark ile Veri Temizleme

Örnek Spark Şeması

Şemayı içe aktarın

import pyspark.sql.types
peopleSchema = StructType([
  # Define the name field
  StructField('name', StringType(), True),
  # Add the age field
  StructField('age', IntegerType(), True),
  # Add the city field
  StructField('city', StringType(), True)  
])

Veri içeren CSV dosyasını okuyun

people_df = spark.read.format('csv').load(name='rawdata.csv', schema=peopleSchema)
PySpark ile Veri Temizleme

Hadi pratik yapalım!

PySpark ile Veri Temizleme

Preparing Video For Download...