Data-engineering in Microsoft Fabric

Gegevens transformeren en analyseren met Microsoft Fabric

Luis Silva

Solution Architect - Data & AI

End-to-end data-analyse

Diagram met componenten van een end-to-end data-analyticsoplossing, inclusief data sources, ingestion, prepare and transform, store, query and visualize en analyze

Neem data op uit de bron en sla op in een datalake
Bereid en transformeer de data
Visualiseer en analyseer de data

Data Factory

Diagram met componenten van een end-to-end data-analyticsoplossing, met nadruk op Data Pipelines in Ingest en Dataflows in Prepare and Transform

Neem data op, bereid en transformeer
Dataflows en Data Pipelines

Dataflows

Low-code interface voor data-inname en transformatie
Power Query-transformatie-engine

Screenshot van de Dataflow-designer met een voorbeeld-ingestiedataflow

Data Pipelines

Verzameling activiteiten die een taak uitvoeren
Typen activiteiten:
- Databeweging (Copy-activiteit, Dataflow)
- Datatransformatie (Notebook, Stored Procedure, Script)
- Besturing (Switch, If, ForEach, Wait)

Screenshot van de Data Pipeline-designer met een voorbeeldpijplijn met een Copy-activiteit en een Dataflow-activiteit

Synapse Data Engineering

Diagram met componenten van een end-to-end data-analyticsoplossing, met nadruk op Lakehouse-items in Store en Notebooks en Spark-job in Prepare and Transform

Lakehouses
Notebooks
Apache Spark Job-definities

Lakehouses

Gestructureerde data (tabellen)
Ongestructureerde data (bestanden)

Screenshot van de Lakehouse Explorer in de Fabric-portal met een Lakehouse met Tables en Files

Notebooks

Interactieve webinterface
- Code voor datamanipulatie
- Datavisualisaties
- Commentaar / uitleg
Meertalige ondersteuning:
- PySpark (Python)
- Spark (Scala)
- Spark SQL (SQL)
- SparkR (R)

Screenshot van de Notebook-editor met een voorbeeldnotebook met tekst, Python-code en een histogram

Apache Spark Job-definities

Dien batch-/streamingjobs in bij Spark-clusters
Alternatief of aanvulling op Notebooks:
- Notebooks voor verkenning, prototyping en samenwerken
- Spark Job Definition voor automatisering van productieklare verwerkingscode

Screenshot van een Spark Job-definitie met configuratieparameters

Synapse Data Warehouse

Diagram met componenten van een end-to-end data-analyticsoplossing, met nadruk op Warehouse-items in Store

Werkt als een traditioneel relationeel datawarehouse
Slaat data op in OneLake met het open Delta Lake-formaat
Maakt interoperabiliteit met andere Fabric-workloads mogelijk
Geen meerdere kopieën van data nodig

Een datastore kiezen

Lakehouse
- Ongestructureerde data (bestanden)
- Spark als primaire ontwikkelinterface

Warehouse
- Gestructureerde data (tabellen)
- T-SQL als primaire ontwikkelinterface

Een tool voor datakopie kiezen

Tabel met overwegingen bij de keuze tussen Pipeline Copy Activity, Dataflow en Spark. Aspecten: hoeveelheid code, vaardigheden, databronnen en transformatiecomplexiteit

Een tool voor datakopie kiezen

Tabel met overwegingen bij de keuze tussen Pipeline Copy Activity, Dataflow en Spark. Aspecten: hoeveelheid code, vaardigheden, databronnen en transformatiecomplexiteit

Een tool voor datakopie kiezen

Tabel met overwegingen bij de keuze tussen Pipeline Copy Activity, Dataflow en Spark. Aspecten: hoeveelheid code, vaardigheden, databronnen en transformatiecomplexiteit

Laten we oefenen!

Gegevens transformeren en analyseren met Microsoft Fabric