Değişmezlik ve Tembel İşleme

PySpark ile Veri Temizleme

Mike Metzger

Data Engineering Consultant

Değişkenlere kısa bakış

Python değişkenleri:

  • Değiştirilebilir
  • Esneklik
  • Eşzamanlılıkta sorun potansiyeli
  • Muhtemelen karmaşıklık katar
PySpark ile Veri Temizleme

Değişmezlik

Değişmez değişkenler:

  • Fonksiyonel programlamanın bir bileşenidir
  • Bir kez tanımlanır
  • Doğrudan değiştirilemez
  • Yeniden atamada yeniden oluşturulur
  • Verimli şekilde paylaşılabilir
PySpark ile Veri Temizleme

Değişmezlik Örneği

Yeni bir veri çerçevesi tanımlayın:

voter_df = spark.read.csv('voterdata.csv')

Değişiklik yapma:

voter_df = voter_df.withColumn('fullyear', 
    voter_df.year + 2000)

voter_df = voter_df.drop(voter_df.year)
PySpark ile Veri Temizleme

Tembel İşleme

  • Bu yavaş değil mi?
  • Dönüşümler
  • Eylemler
  • Verimli planlama sağlar
voter_df = voter_df.withColumn('fullyear', 
    voter_df.year + 2000)
voter_df = voter_df.drop(voter_df.year)

voter_df.count()
PySpark ile Veri Temizleme

Hadi pratik yapalım!

PySpark ile Veri Temizleme

Preparing Video For Download...