Data opschonen met PySpark
Mike Metzger
Data Engineering Consultant
Spark-clusters bestaan uit twee procestypen
Belangrijke parameters:
airport_df = spark.read.csv('airports-*.txt.gz')
Een goed gedefinieerd schema verbetert de importprestaties sterk
split -l 10000 -d largefile chunk-
df_csv = spark.read.csv('singlelargefile.csv')
df_csv.write.parquet('data.parquet')
df = spark.read.parquet('data.parquet')
Data opschonen met PySpark