PySpark ile Veri Temizleme
Mike Metzger
Data Engineering Consultant
width, height, image
# This is a comment
200 300 affenpinscher;0
600 450 Collie;307 Collie;101
600 449 Japanese_spaniel;23
Örnek satırlar:
02111277 n02111277_3206 500 375 Newfoundland,110,73,416,298
02108422 n02108422_4375 500 375 bull_mastiff,101,90,214,356 \
bull_mastiff,282,74,416,370
Spark'ın CSV ayrıştırıcısı:
df1 = spark.read.csv('datafile.csv.gz', comment='#')
df1 = spark.read.csv('datafile.csv.gz', header='True')
Spark şunları yapar:
sep argümanına göre DataFrame'de sütunları otomatik oluştururdf1 = spark.read.csv('datafile.csv.gz', sep=',')
,sep dizgede yoksa da ayrıştırabilirdf1 = spark.read.csv('datafile.csv.gz', sep='*')
_c0 sütununda tutarPySpark ile Veri Temizleme