Introductie tot datapijplijnen

Data opschonen met PySpark

Mike Metzger

Data Engineering Consultant

Wat is een datapijplijn?

  • Een reeks stappen om data van bron(nen) naar eindresultaat te verwerken
  • Kan elk aantal stappen of componenten hebben
  • Kan meerdere systemen omvatten
  • We focussen op datapijplijnen in Spark
Data opschonen met PySpark

Hoe ziet een datapijplijn eruit?

  • Input(s)
    • CSV, JSON, webservices, databases
  • Transformaties
    • withColumn(), .filter(), .drop()
  • Output(s)
    • CSV, Parquet, database
  • Validatie
  • Analyse
Data opschonen met PySpark

Pipeline-details

  • Niet formeel gedefinieerd in Spark
  • Meestal alle normale Spark-code die voor de taak nodig is
    schema = StructType([
    StructField('name', StringType(), False),
    StructField('age', StringType(), False)
    ])
    df = spark.read.format('csv').load('datafile').schema(schema)
    df = df.withColumn('id', monotonically_increasing_id())
    ...
    df.write.parquet('outdata.parquet')
    df.write.json('outdata.json')
    
Data opschonen met PySpark

Laten we oefenen!

Data opschonen met PySpark

Preparing Video For Download...