Veri Boru Hatlarına Giriş

PySpark ile Veri Temizleme

Mike Metzger

Data Engineering Consultant

Veri boru hattı nedir?

  • Veriyi kaynaktan nihai çıktıya işleme adımları
  • Her sayıda adım veya bileşenden oluşabilir
  • Birçok sistemi kapsayabilir
  • Odak: Spark içindeki veri boru hatları
PySpark ile Veri Temizleme

Bir veri boru hattı nasıl görünür?

  • Girdi(ler)
    • CSV, JSON, web servisleri, veritabanları
  • Dönüşümler
    • withColumn(), .filter(), .drop()
  • Çıktı(lar)
    • CSV, Parquet, veritabanı
  • Doğrulama
  • Analiz
PySpark ile Veri Temizleme

Boru hattı ayrıntıları

  • Spark’ta resmi olarak tanımlı değildir
  • Genelde göreve gereken normal Spark kodlarından oluşur
    schema = StructType([
    StructField('name', StringType(), False),
    StructField('age', StringType(), False)
    ])
    df = spark.read.format('csv').load('datafile').schema(schema)
    df = df.withColumn('id', monotonically_increasing_id())
    ...
    df.write.parquet('outdata.parquet')
    df.write.json('outdata.json')
    
PySpark ile Veri Temizleme

Hadi pratik yapalım!

PySpark ile Veri Temizleme

Preparing Video For Download...