Databricks SQL’e başlama

Databricks Kavramları

Kevin Barlow

Data Practitioner

SQL İşlem vs. Genel İşlem

Veri bilimi veya veri mühendisliği iş yükleri için işlem kümeleri tasarlamak...

import pyspark.sql.functions as F

spark_df = (spark
            .read
            .table('user_table'))

spark_df = (spark_df
            .withColumn('score', 
                        F.flatten(...))
           )

SQL iş yükleri için işlem tasarlamaktan doğası gereği farklıdır

SELECT *
FROM user_table u
LEFT JOIN product_use p
    ON u.userId = p.userId
WHERE country = 'USA'
AND utilization >= 0.6
Databricks Kavramları

SQL Warehouse

SQL Warehouse Arayüzü

Databricks Kavramları

SQL Warehouse

SQL Warehouse Yapılandırma Seçenekleri

  1. Küme Adı
  2. Küme Boyutu (S, M, L, vb.)
  3. Ölçekleme davranışı

SQL Warehouse Arayüzü - Küme Boyutu

Databricks Kavramları

SQL Warehouse

SQL Warehouse Yapılandırma Seçenekleri

  1. Küme Adı
  2. Küme Boyutu (S, M, L, vb.)
  3. Ölçekleme davranışı
  4. Küme Türü

SQL Warehouse Arayüzü - Küme Türü

Databricks Kavramları

SQL Warehouse Türleri

Farklı türler farklı avantajlar sunar

Classic

  • En temel SQL işlem gücü
  • Müşteri bulutunda

Pro

  • Classic’ten daha gelişmiş özellikler
  • Müşteri bulutunda

Serverless

  • En yeni özellikler
  • Databricks bulutunda
  • En uygun maliyet/performans
Databricks Kavramları

SQL Düzenleyici

SQL Düzenleyici

Databricks Kavramları

Yaygın SQL Komutları

COPY INTO

  • Ham veriyi alıp Delta’ya koyar
  • ETL’in Extract aşaması
COPY INTO my_table
FROM '/path/to/files'
FILEFORMAT = <format>
FORMAT_OPTIONS ('mergeSchema' = 'true')
COPY_OPTIONS ('mergeSchema' = 'true');

CREATE <entity> AS

  • Tablo veya Görünüm oluşturur
  • ETL’in Transform aşaması
CREATE TABLE events
  USING DELTA
  AS (
      SELECT *
    FROM raw_events
    WHERE ...
  )
Databricks Kavramları

Hadi pratik yapalım!

Databricks Kavramları

Preparing Video For Download...