Pourquoi les organisations accordent-elles de l’importance à l’informatique ?
Apache Spark
Créé par les cofondateurs de Databricks
Framework open source
Calcul distribué hautement efficace
API pour Python, SQL, Scala, R
Idéal pour tous les cas d'utilisation : {{3}} - Ingénierie des données, machine learning et intelligence économique{{3}} Découvrez certains des cours Apache Spark sur DataCamp !
Types de clusters
Classique
Les ressources de calcul (machines virtuelles) sont créées dans le Compute Plane
Databricks fournit la configuration à votre cloud
Avantages : calcul et sécurité dans votre environnement, exploitez des pools de calcul préexistants, etc.
Inconvénients : temps de démarrage lent
Types de clusters
Sans serveur
Les ressources de calcul (machines virtuelles) sont créées dans le Control Plane
Databricks fournit un accès à vos utilisateurs
Avantages : Démarrage rapide, dernières fonctionnalités innovantes, meilleures performances, Databricks améliore les performances au fil du temps
Inconvénients(?) : le calcul n'est pas effectué dans votre environnement
Nœud unique vs. Multi-nœuds
Nœud unique
Cluster avec uniquement un nœud Driver
Peut toujours exécuter Spark
Peut également exécuter des frameworks à nœud unique (c’est-à-dire pandas)
Idéal pour les petits jeux de données
Multi-nœud
Cluster avec un nœud pilote et un ou plusieurs nœuds de travail
Spark peut répartir le travail sur plusieurs nœuds
Idéal pour les ensembles de données volumineux
Databricks Runtime
Installé sur chaque cluster Databricks{{1}} - Version optimisée d'Apache Spark {{2}} - Photon pour des requêtes SQL plus rapides {{3}} - Bibliothèques courantes (par exemple, pandas, dplyr, sci-kit learn) {{4}} - Logique pour se connecter aux services Databricks {{4}} Recommandation générale : Utilisez la version support à long terme (Long Term Support - LTS) la plus récente du Runtime