PySpark ile Veri Temizleme
Mike Metzger
Data Engineering Consultant
voter_df = df.select(df['VOTER NAME']).distinct()
voter_df.explain()
== Physical Plan ==
*(2) HashAggregate(keys=[VOTER NAME#15], functions=[])
+- Exchange hashpartitioning(VOTER NAME#15, 200)
+- *(1) HashAggregate(keys=[VOTER NAME#15], functions=[])
+- *(1) FileScan csv [VOTER NAME#15] Batched: false, Format: CSV, Location:
InMemoryFileIndex[file:/DallasCouncilVotes.csv.gz],
PartitionFilters: [], PushedFilters: [],
ReadSchema: struct<VOTER NAME:string>
Shuffle (karıştırma), bir görevi tamamlamak için verinin farklı işçilere taşınmasıdır
.repartition(num_partitions) kullanımını sınırlayın.coalesce(num_partitions) kullanın.join() çağırırken dikkatli olun.broadcast() kullanınBroadcast (yayınlama):
.join() işlemlerini ciddi biçimde hızlandırabilir.broadcast(<DataFrame>) yöntemini kullanın
from pyspark.sql.functions import broadcast
combined_df = df_1.join(broadcast(df_2))
PySpark ile Veri Temizleme