Memulai dengan Databricks SQL

Konsep Databricks

Kevin Barlow

Data Practitioner

Komputasi SQL vs. Komputasi Umum

Merancang klaster komputasi untuk beban kerja data science atau data engineering...

import pyspark.sql.functions as F

spark_df = (spark
            .read
            .table('user_table'))

spark_df = (spark_df
            .withColumn('score', 
                        F.flatten(...))
           )

secara mendasar berbeda dengan merancang komputasi untuk beban kerja SQL

SELECT *
FROM user_table u
LEFT JOIN product_use p
    ON u.userId = p.userId
WHERE country = 'USA'
AND utilization >= 0.6
Konsep Databricks

SQL Warehouse

UI SQL Warehouse

Konsep Databricks

SQL Warehouse

Opsi Konfigurasi SQL Warehouse

  1. Nama Klaster
  2. Ukuran Klaster (S, M, L, dll.)
  3. Perilaku penskalaan

UI SQL Warehouse - Ukuran Klaster

Konsep Databricks

SQL Warehouse

Opsi Konfigurasi SQL Warehouse

  1. Nama Klaster
  2. Ukuran Klaster (S, M, L, dll.)
  3. Perilaku penskalaan
  4. Jenis Klaster

UI SQL Warehouse - Jenis Klaster

Konsep Databricks

Jenis SQL Warehouse

Tipe berbeda memberi manfaat berbeda

Classic

  • Komputasi SQL paling dasar
  • Di cloud pelanggan

Pro

  • Fitur lebih lanjut daripada Classic
  • Di cloud pelanggan

Serverless

  • Fitur terdepan
  • Di cloud Databricks
  • Paling hemat biaya
Konsep Databricks

Editor SQL

Editor SQL

Konsep Databricks

Perintah SQL Umum

COPY INTO

  • Ambil data mentah dan masukkan ke Delta
  • Tahap Extract dalam ETL
COPY INTO my_table
FROM '/path/to/files'
FILEFORMAT = <format>
FORMAT_OPTIONS ('mergeSchema' = 'true')
COPY_OPTIONS ('mergeSchema' = 'true');

CREATE <entity> AS

  • Buat Table atau View
  • Tahap Transform dalam ETL
CREATE TABLE events
  USING DELTA
  AS (
      SELECT *
    FROM raw_events
    WHERE ...
  )
Konsep Databricks

Ayo berlatih!

Konsep Databricks

Preparing Video For Download...