Data Intelligence Platform - Calcul

Introduction à Databricks

Kevin Barlow

Data Practitioner

Pourquoi les organisations accordent-elles de l’importance à l’informatique ?

Engrenage unique

Système d'engrenages

Créé par les cofondateurs de Databricks
Framework open source
Calcul distribué hautement efficace
API pour Python, SQL, Scala, R
Idéal pour tous les cas d'utilisation : {{3}} - Ingénierie des données, machine learning et intelligence économique{{3}} Découvrez certains des cours Apache Spark sur DataCamp !

Apache Spark Logo

Classique

Les ressources de calcul (machines virtuelles) sont créées dans le Compute Plane
Databricks fournit la configuration à votre cloud
Avantages : calcul et sécurité dans votre environnement, exploitez des pools de calcul préexistants, etc.
Inconvénients : temps de démarrage lent

Databricks Control Plane

Sans serveur

Les ressources de calcul (machines virtuelles) sont créées dans le Control Plane
Databricks fournit un accès à vos utilisateurs
Avantages : Démarrage rapide, dernières fonctionnalités innovantes, meilleures performances, Databricks améliore les performances au fil du temps
Inconvénients(?) : le calcul n'est pas effectué dans votre environnement

Architecture sans serveur

Nœud unique

Cluster à nœud unique

Multi-nœud

Cluster multi-nœud

Installé sur chaque cluster Databricks{{1}} - Version optimisée d'Apache Spark {{2}} - Photon pour des requêtes SQL plus rapides {{3}} - Bibliothèques courantes (par exemple, pandas, dplyr, sci-kit learn) {{4}} - Logique pour se connecter aux services Databricks {{4}} Recommandation générale : Utilisez la version support à long terme (Long Term Support - LTS) la plus récente du Runtime

Cluster avec Databricks Runtime

Introduction à Databricks