Principes fondamentaux des mégadonnées avec PySpark
Upendra Devisetty
Science Analyst, CyVerse
Volume, Variété et Vélocité
Volume : Taille des données
Variété : Sources et formats différents
Vélocité : Vitesse des données
Calcul en cluster : Agrégation de ressources de plusieurs machines
Calcul parallèle : Calculs simultanés sur un seul ordinateur
Calcul distribué : Ensemble de nœuds (ordinateurs en réseau) qui exécutent en parallèle
Traitement par lots : Découper le job en petites tâches exécutées sur des machines distinctes
Traitement en temps réel : Traitement immédiat des données
Hadoop/MapReduce : Cadre évolutif et tolérant aux pannes, écrit en Java
Open source
Traitement par lots
Apache Spark : Système de calcul en cluster polyvalent et ultra-rapide
Open source
Traitement par lots et en temps réel
Remarque : Apache Spark est aujourd’hui préféré à Hadoop/MapReduce
Cadre de calcul distribué sur cluster
Calculs en mémoire efficaces pour de grands jeux de données
Framework de traitement ultra-rapide
Prise en charge de Java, Scala, Python, R et SQL

Mode local : Une seule machine, par ex. votre ordinateur portable
Mode cluster : Ensemble de machines prédéfinies
Flux de travail : Local -> clusters
Aucun changement de code nécessaire
Principes fondamentaux des mégadonnées avec PySpark