Data Intelligence Platform - Calcul

Introduction à Databricks

Kevin Barlow

Data Practitioner

Pourquoi les organisations accordent-elles de l’importance à l’informatique ?

Engrenage unique

Système d'engrenages

Introduction à Databricks

Apache Spark

  • Créé par les cofondateurs de Databricks
  • Framework open source
  • Calcul distribué hautement efficace
  • API pour Python, SQL, Scala, R
  • Idéal pour tous les cas d'utilisation : {{3}} - Ingénierie des données, machine learning et intelligence économique{{3}} Découvrez certains des cours Apache Spark sur DataCamp !

Apache Spark Logo

Introduction à Databricks

Types de clusters

Classique

  • Les ressources de calcul (machines virtuelles) sont créées dans le Compute Plane
  • Databricks fournit la configuration à votre cloud
  • Avantages : calcul et sécurité dans votre environnement, exploitez des pools de calcul préexistants, etc.
  • Inconvénients : temps de démarrage lent

Databricks Control Plane

Introduction à Databricks

Types de clusters

Sans serveur

  • Les ressources de calcul (machines virtuelles) sont créées dans le Control Plane
  • Databricks fournit un accès à vos utilisateurs
  • Avantages : Démarrage rapide, dernières fonctionnalités innovantes, meilleures performances, Databricks améliore les performances au fil du temps
  • Inconvénients(?) : le calcul n'est pas effectué dans votre environnement

Architecture sans serveur

Introduction à Databricks

Nœud unique vs. Multi-nœuds

Nœud unique

  • Cluster avec uniquement un nœud Driver
  • Peut toujours exécuter Spark
  • Peut également exécuter des frameworks à nœud unique (c’est-à-dire pandas)
  • Idéal pour les petits jeux de données

Cluster à nœud unique

Multi-nœud

  • Cluster avec un nœud pilote et un ou plusieurs nœuds de travail
  • Spark peut répartir le travail sur plusieurs nœuds
  • Idéal pour les ensembles de données volumineux

Cluster multi-nœud

Introduction à Databricks

Databricks Runtime

  • Installé sur chaque cluster Databricks{{1}} - Version optimisée d'Apache Spark {{2}} - Photon pour des requêtes SQL plus rapides {{3}} - Bibliothèques courantes (par exemple, pandas, dplyr, sci-kit learn) {{4}} - Logique pour se connecter aux services Databricks {{4}} Recommandation générale : Utilisez la version support à long terme (Long Term Support - LTS) la plus récente du Runtime

Cluster avec Databricks Runtime

Introduction à Databricks

Passons à la pratique !

Introduction à Databricks

Preparing Video For Download...