Introductie tot datapijplijnen

Data opschonen met PySpark

Mike Metzger

Data Engineering Consultant

Wat is een datapijplijn?

Een reeks stappen om data van bron(nen) naar eindresultaat te verwerken
Kan elk aantal stappen of componenten hebben
Kan meerdere systemen omvatten
We focussen op datapijplijnen in Spark

Hoe ziet een datapijplijn eruit?

Input(s)
- CSV, JSON, webservices, databases
Transformaties
- withColumn(), .filter(), .drop()
Output(s)
- CSV, Parquet, database
Validatie
Analyse

Pipeline-details

Niet formeel gedefinieerd in Spark

Meestal alle normale Spark-code die voor de taak nodig is

schema = StructType([
StructField('name', StringType(), False),
StructField('age', StringType(), False)
])
df = spark.read.format('csv').load('datafile').schema(schema)
df = df.withColumn('id', monotonically_increasing_id())
...
df.write.parquet('outdata.parquet')
df.write.json('outdata.json')

Laten we oefenen!

Data opschonen met PySpark