Fondamentaux du Big Data

Principes fondamentaux des mégadonnées avec PySpark

Upendra Devisetty

Science Analyst, CyVerse

Qu’est-ce que le Big Data ?

Le Big Data désigne l’étude et l’usage de jeux de données trop complexes pour les logiciels classiques de traitement des données — Wikipédia

Les 3 V du Big Data

Volume, Variété et Vélocité
Volume : Taille des données
Variété : Sources et formats différents
Vélocité : Vitesse des données

Concepts et terminologie du Big Data

Calcul en cluster : Agrégation de ressources de plusieurs machines
Calcul parallèle : Calculs simultanés sur un seul ordinateur
Calcul distribué : Ensemble de nœuds (ordinateurs en réseau) qui exécutent en parallèle
Traitement par lots : Découper le job en petites tâches exécutées sur des machines distinctes
Traitement en temps réel : Traitement immédiat des données

Systèmes de traitement Big Data

Hadoop/MapReduce : Cadre évolutif et tolérant aux pannes, écrit en Java
- Open source
- Traitement par lots
Apache Spark : Système de calcul en cluster polyvalent et ultra-rapide
- Open source
- Traitement par lots et en temps réel
Remarque : Apache Spark est aujourd’hui préféré à Hadoop/MapReduce

Fonctionnalités d’Apache Spark

Cadre de calcul distribué sur cluster
Calculs en mémoire efficaces pour de grands jeux de données
Framework de traitement ultra-rapide
Prise en charge de Java, Scala, Python, R et SQL

Composants d’Apache Spark

Composants Spark

Modes de déploiement de Spark

Mode local : Une seule machine, par ex. votre ordinateur portable
- Pratique pour tester, déboguer et démontrer
Mode cluster : Ensemble de machines prédéfinies
- Adapté à la production
Flux de travail : Local -> clusters
Aucun changement de code nécessaire

À suivre : PySpark

Principes fondamentaux des mégadonnées avec PySpark

Preparing Video For Download...