Fondamentaux du Big Data

Principes fondamentaux des mégadonnées avec PySpark

Upendra Devisetty

Science Analyst, CyVerse

Qu’est-ce que le Big Data ?

  • Le Big Data désigne l’étude et l’usage de jeux de données trop complexes pour les logiciels classiques de traitement des données — Wikipédia
Principes fondamentaux des mégadonnées avec PySpark

Les 3 V du Big Data

  • Volume, Variété et Vélocité

  • Volume : Taille des données

  • Variété : Sources et formats différents

  • Vélocité : Vitesse des données

Principes fondamentaux des mégadonnées avec PySpark

Concepts et terminologie du Big Data

  • Calcul en cluster : Agrégation de ressources de plusieurs machines

  • Calcul parallèle : Calculs simultanés sur un seul ordinateur

  • Calcul distribué : Ensemble de nœuds (ordinateurs en réseau) qui exécutent en parallèle

  • Traitement par lots : Découper le job en petites tâches exécutées sur des machines distinctes

  • Traitement en temps réel : Traitement immédiat des données

Principes fondamentaux des mégadonnées avec PySpark

Systèmes de traitement Big Data

  • Hadoop/MapReduce : Cadre évolutif et tolérant aux pannes, écrit en Java

    • Open source

    • Traitement par lots

  • Apache Spark : Système de calcul en cluster polyvalent et ultra-rapide

    • Open source

    • Traitement par lots et en temps réel

  • Remarque : Apache Spark est aujourd’hui préféré à Hadoop/MapReduce

Principes fondamentaux des mégadonnées avec PySpark

Fonctionnalités d’Apache Spark

  • Cadre de calcul distribué sur cluster

  • Calculs en mémoire efficaces pour de grands jeux de données

  • Framework de traitement ultra-rapide

  • Prise en charge de Java, Scala, Python, R et SQL

Principes fondamentaux des mégadonnées avec PySpark

Composants d’Apache Spark

Composants Spark

Principes fondamentaux des mégadonnées avec PySpark

Modes de déploiement de Spark

  • Mode local : Une seule machine, par ex. votre ordinateur portable

    • Pratique pour tester, déboguer et démontrer
  • Mode cluster : Ensemble de machines prédéfinies

    • Adapté à la production
  • Flux de travail : Local -> clusters

  • Aucun changement de code nécessaire

Principes fondamentaux des mégadonnées avec PySpark

À suivre : PySpark

Principes fondamentaux des mégadonnées avec PySpark

Preparing Video For Download...