Plataforma de Data Intelligence - Compute

Introdução ao Databricks

Kevin Barlow

Data Practitioner

Por que as organizações se importam com compute?

Engrenagem única

Sistema de engrenagens

Introdução ao Databricks

Apache Spark

  • Criado pelos cofundadores da Databricks
  • Framework open source
  • Computação distribuída altamente eficiente
  • APIs para Python, SQL, Scala, R
  • Ótimo para todos os casos:
    • de engenharia de dados a machine learning e BI

Confira alguns cursos de Apache Spark na DataCamp!

Logo do Apache Spark

Introdução ao Databricks

Tipos de cluster

Clássico

  • Recursos de compute (VMs) criados no Compute Plane
  • A Databricks fornece configuração para tua nuvem
  • Prós: compute e segurança no teu ambiente; usa pools de compute existentes, etc.
  • Contras: início lento

Databricks Control Plane

Introdução ao Databricks

Tipos de cluster

Serverless

  • Recursos de compute (VMs) criados no Control Plane
  • A Databricks dá acesso para teus usuários
  • Prós: início rápido, recursos mais recentes, melhor performance; a Databricks melhora ao longo do tempo
  • Contras(?): compute fora do teu ambiente

Arquitetura Serverless

Introdução ao Databricks

Single-node vs. Multi-node

Single-node

  • Cluster com apenas um Driver Node
  • Ainda roda Spark
  • Também roda frameworks single-node (ex.: pandas)
  • Ótimo para datasets menores

Cluster single-node

Multi-node

  • Cluster com um Driver Node e um ou mais Worker Nodes
  • O Spark distribui o trabalho entre vários nodes
  • Ótimo para datasets maiores

Cluster multi-node

Introdução ao Databricks

Databricks Runtime

  • Instalado em todo cluster Databricks
    • Versão otimizada do Apache Spark
    • Photon para SQL mais rápido
    • Bibliotecas comuns (ex.: pandas, dplyr, sci-kit learn)
    • Lógica para conectar com serviços Databricks

Recomendação: use a versão LTS mais recente do Runtime

Cluster com Databricks Runtime

Introdução ao Databricks

Vamos praticar!

Introdução ao Databricks

Preparing Video For Download...