Plataforma de datos inteligente: Compute

Introducción a Databricks

Kevin Barlow

Data Practitioner

¿Por qué a las organizaciones les importa el cómputo?

Engranaje simple

Sistema de engranajes

Introducción a Databricks

Apache Spark

  • Creado por los cofundadores de Databricks
  • Framework de código abierto
  • Computación distribuida muy eficiente
  • APIs para Python, SQL, Scala, R
  • Válido para todo:
    • de ingeniería de datos a machine learning e inteligencia de negocio

Consulta algunos cursos de Apache Spark en DataCamp.

Logotipo de Apache Spark

Introducción a Databricks

Tipos de clúster

Clásico

  • Los recursos de cómputo (máquinas virtuales) se crean en el Compute Plane
  • Databricks aporta la configuración a tu nube
  • Pros: cómputo y seguridad en tu entorno, aprovecha pools de cómputo existentes, etc.
  • Contras: inicio lento

Plano de control de Databricks

Introducción a Databricks

Tipos de clúster

Serverless

  • Los recursos de cómputo (máquinas virtuales) se crean en el Control Plane
  • Databricks da acceso a tus usuarios
  • Pros: inicio rápido, últimas funciones, máximo rendimiento, mejora continua por Databricks
  • Contras(?): el cómputo no está en tu entorno

Arquitectura serverless

Introducción a Databricks

Nodo único vs. multinodo

Nodo único

  • Clúster con solo un Driver Node
  • Puede ejecutar Spark
  • También frameworks de nodo único (p. ej., pandas)
  • Ideal para conjuntos de datos pequeños

Clúster de nodo único

Varios nodos

  • Clúster con un Driver Node y uno o más Worker Nodes
  • Spark distribuye el trabajo entre varios nodos
  • Ideal para conjuntos de datos grandes

Clúster multinodo

Introducción a Databricks

Databricks Runtime

  • Instalado en cada clúster de Databricks
    • Versión optimizada de Apache Spark
    • Photon para SQL más rápidas
    • Bibliotecas comunes (p. ej., pandas, dplyr, scikit-learn)
    • Lógica para conectarse con servicios de Databricks

Recomendación: usa la versión más reciente LTS (soporte a largo plazo) del Runtime

Clúster con Databricks Runtime

Introducción a Databricks

¡Vamos a practicar!

Introducción a Databricks

Preparing Video For Download...