Data Intelligence Platform - Données

Introduction à Databricks

Kevin Barlow

Data Analytics Practitioner

Pourquoi les organisations se soucient-elles de la gestion des données ?

Protection et sécurité

Data Security

Confiance dans les données

Confident Analytics

Introduction à Databricks

Types de données

Structured

"- Le plus courant et compris

  • Lignes et colonnes typiques
  • Exemples : {{2}} - tables de base de données
    • .csv
    • Parquet
    • Delta{{2}}"
id name occupation location
1 Kevin Data Scientist California
2 Tom Architect Arizona
3 Sally Lawyer Texas
4 Tina Surgeon Florida
5 Joe Engineer New York {{1}}
Introduction à Databricks

Types de données

Semi-structured

"- Courant avec les appareils basés sur le web

  • Une certaine structure, mais un contenu plus flexible
  • Exemples :
    • JSON
    • XML
    • HTML{{3}}"
{
  "people": [{
      "id": 1,
      "name": "Kevin",
      "occupation": "Data Scientist",
      "location": "California"},
    {
      "id": 2,
      "name": "Tom",
      "occupation": "Architect",
      "location": "Arizona"}]
}
Introduction à Databricks

Types de données

Unstructured

"- Fréquent avec les appareils intelligents, les caméras, etc.

  • Peu de structure, riche en informations
  • Exemples : {{2}} - JPEG
    • PNG
    • MP4
    • PDF
    • DOC{{2}}"

Unstructured Data Diagram

Introduction à Databricks

Delta

delta.io

  • Format de stockage open source
  • Collecte de tables parquet
  • Journal des transactions JSON
  • Entièrement conforme à ACID
  • Jeux de données batch et streaming

Delta Lake

Introduction à Databricks

Unity Catalog

Unity Catalog Data Model

1 https://docs.databricks.com/en/data-governance/unity-catalog/index.html#the-unity-catalog-object-model
Introduction à Databricks

Unity Catalog

Unity Catalog Data Model

"GRANT, SHOW, REVOKE, USE ..."

Introduction à Databricks

Explorateur de catalogue

  • Emplacement unique pour explorer tous les actifs de données
  • UI pour découvrir les données
  • Gestion des autorisations Unity Catalog
  • Affichage de la traçabilité des données et des ressources associées

Catalog Explorer Screenshot

Introduction à Databricks

Passons à la pratique !

Introduction à Databricks

Preparing Video For Download...