Data verwerken

Data Engineering begrijpen

Hadrien Lacroix

Content Developer at DataCamp

datapijplijn

Data Engineering begrijpen

data naar het datameer verplaatsen

Data Engineering begrijpen

data naar het datameer verplaatsen

Data Engineering begrijpen

controleren op corrupte data

Data Engineering begrijpen

Een algemene definitie

  • Dataverwerking: ruwe data omzetten in betekenisvolle info
Data Engineering begrijpen

Waarde van dataverwerking

Conceptueel

  • Ongewenste data verwijderen
  • Geheugen-, verwerkings- en netwerkkosten optimaliseren
  • Data omzetten naar een ander type

Bij Spotflix

  • Testfeature-data niet lang nodig
  • Bestanden zo groot opslaan/streamen is te duur
Data Engineering begrijpen

datapijplijn

Data Engineering begrijpen

datapijplijn

Data Engineering begrijpen

datapijplijn

Data Engineering begrijpen

Waarde van dataverwerking

Conceptueel

  • Ongewenste data verwijderen
  • Om geheugen te besparen
  • Data omzetten naar een ander type
  • Data organiseren
  • In een schema/structuur passen
  • Productiviteit verhogen

Bij Spotflix

  • Verliesvrij formaat niet nodig
  • Bestanden zo groot opslaan is te duur
  • Nummers converteren van .flac naar .ogg
  • Data van het datameer naar datawarehouses herindelen
  • Voorbeeld: employee-tabel
  • Data scientists in staat stellen
Data Engineering begrijpen

Hoe data engineers data verwerken

  • Data manipuleren, opschonen en opruimen
    • dat je kunt automatiseren
    • dat altijd nodig blijft
  • Data opslaan in een logisch gestructureerde database
  • Views maken boven op tabellen
  • Databaseprestaties optimaliseren
  • Corrupte songbestanden afwijzen
  • Beslissen wat te doen met ontbrekende metadata
  • Gescheiden artiesten- en albumtabellen...
  • ...maar ook een view die ze combineert
  • Indexeren
Data Engineering begrijpen

1 Het verschil tussen batch en stream wordt in de volgende les uitgelegd!
Data Engineering begrijpen

Apache Spark-logo

Data Engineering begrijpen

Samenvatting

  • Wat dataverwerking is
  • Waarom het nodig is
  • Waaruit het bestaat
  • Hoe we data verwerken bij Spotflix
Data Engineering begrijpen

Laten we oefenen!

Data Engineering begrijpen

Preparing Video For Download...