PySpark ile Veri Temizleme
Mike Metzger
Data Engineering Consultant
DataFrame'ler:
# Adı "M" ile başlayan satırları döndür voter_df.filter(voter_df.name.like('M%'))# Yalnızca ad ve pozisyonu döndür voters = voter_df.select('name', 'position')
voter_df.filter(voter_df.date > '1/1/2019') # veya voter_df.where(...)
voter_df.select(voter_df.name)
voter_df.withColumn('year', voter_df.date.year)
voter_df.drop('unused_column')
~ ile olumsuzlavoter_df.filter(voter_df['name'].isNotNull())
voter_df.filter(voter_df.date.year > 1800)
voter_df.where(voter_df['_c0'].contains('VOTE'))
voter_df.where(~ voter_df._c1.isNull())
import pyspark.sql.functions as F
voter_df.withColumn('upper', F.upper('name'))
voter_df.withColumn('splits', F.split('name', ' '))
voter_df.withColumn('year', voter_df['_c4'].cast(IntegerType()))
ArrayType() ile etkileşim için çeşitli yardımcı işlevler/dönüşümler
.size(<column>) - ArrayType() sütununun uzunluğunu döndürür
.getItem(<index>) - liste sütununda belirli indeksteki öğeyi getirir.
PySpark ile Veri Temizleme