Data-engineering in Microsoft Fabric

Gegevens transformeren en analyseren met Microsoft Fabric

Luis Silva

Solution Architect - Data & AI

End-to-end data-analyse

Diagram met componenten van een end-to-end data-analyticsoplossing, inclusief data sources, ingestion, prepare and transform, store, query and visualize en analyze

  • Neem data op uit de bron en sla op in een datalake
  • Bereid en transformeer de data
  • Visualiseer en analyseer de data
Gegevens transformeren en analyseren met Microsoft Fabric

Data Factory

Diagram met componenten van een end-to-end data-analyticsoplossing, met nadruk op Data Pipelines in Ingest en Dataflows in Prepare and Transform

  • Neem data op, bereid en transformeer
  • Dataflows en Data Pipelines
Gegevens transformeren en analyseren met Microsoft Fabric

Dataflows

  • Low-code interface voor data-inname en transformatie
  • Power Query-transformatie-engine

Screenshot van de Dataflow-designer met een voorbeeld-ingestiedataflow

Gegevens transformeren en analyseren met Microsoft Fabric

Data Pipelines

  • Verzameling activiteiten die een taak uitvoeren
  • Typen activiteiten:
    • Databeweging (Copy-activiteit, Dataflow)
    • Datatransformatie (Notebook, Stored Procedure, Script)
    • Besturing (Switch, If, ForEach, Wait)

Screenshot van de Data Pipeline-designer met een voorbeeldpijplijn met een Copy-activiteit en een Dataflow-activiteit

Gegevens transformeren en analyseren met Microsoft Fabric

Synapse Data Engineering

Diagram met componenten van een end-to-end data-analyticsoplossing, met nadruk op Lakehouse-items in Store en Notebooks en Spark-job in Prepare and Transform

  • Lakehouses
  • Notebooks
  • Apache Spark Job-definities
Gegevens transformeren en analyseren met Microsoft Fabric

Lakehouses

  • Gestructureerde data (tabellen)
  • Ongestructureerde data (bestanden)

Screenshot van de Lakehouse Explorer in de Fabric-portal met een Lakehouse met Tables en Files

Gegevens transformeren en analyseren met Microsoft Fabric

Notebooks

  • Interactieve webinterface
    • Code voor datamanipulatie
    • Datavisualisaties
    • Commentaar / uitleg
  • Meertalige ondersteuning:
    • PySpark (Python)
    • Spark (Scala)
    • Spark SQL (SQL)
    • SparkR (R)

Screenshot van de Notebook-editor met een voorbeeldnotebook met tekst, Python-code en een histogram

Gegevens transformeren en analyseren met Microsoft Fabric

Apache Spark Job-definities

  • Dien batch-/streamingjobs in bij Spark-clusters
  • Alternatief of aanvulling op Notebooks:
    • Notebooks voor verkenning, prototyping en samenwerken
    • Spark Job Definition voor automatisering van productieklare verwerkingscode

Screenshot van een Spark Job-definitie met configuratieparameters

Gegevens transformeren en analyseren met Microsoft Fabric

Synapse Data Warehouse

Diagram met componenten van een end-to-end data-analyticsoplossing, met nadruk op Warehouse-items in Store

  • Werkt als een traditioneel relationeel datawarehouse
  • Slaat data op in OneLake met het open Delta Lake-formaat
  • Maakt interoperabiliteit met andere Fabric-workloads mogelijk
  • Geen meerdere kopieën van data nodig
Gegevens transformeren en analyseren met Microsoft Fabric

Een datastore kiezen

  • Lakehouse
    • Ongestructureerde data (bestanden)
    • Spark als primaire ontwikkelinterface

 

  • Warehouse
    • Gestructureerde data (tabellen)
    • T-SQL als primaire ontwikkelinterface
Gegevens transformeren en analyseren met Microsoft Fabric

Een tool voor datakopie kiezen

Tabel met overwegingen bij de keuze tussen Pipeline Copy Activity, Dataflow en Spark. Aspecten: hoeveelheid code, vaardigheden, databronnen en transformatiecomplexiteit

Gegevens transformeren en analyseren met Microsoft Fabric

Een tool voor datakopie kiezen

Tabel met overwegingen bij de keuze tussen Pipeline Copy Activity, Dataflow en Spark. Aspecten: hoeveelheid code, vaardigheden, databronnen en transformatiecomplexiteit

Gegevens transformeren en analyseren met Microsoft Fabric

Een tool voor datakopie kiezen

Tabel met overwegingen bij de keuze tussen Pipeline Copy Activity, Dataflow en Spark. Aspecten: hoeveelheid code, vaardigheden, databronnen en transformatiecomplexiteit

Gegevens transformeren en analyseren met Microsoft Fabric

Laten we oefenen!

Gegevens transformeren en analyseren met Microsoft Fabric

Preparing Video For Download...