Databricks Kavramları
Kevin Barlow
Data Practitioner
Veri bilimi veya veri mühendisliği iş yükleri için işlem kümeleri tasarlamak...
import pyspark.sql.functions as F
spark_df = (spark
.read
.table('user_table'))
spark_df = (spark_df
.withColumn('score',
F.flatten(...))
)
SQL iş yükleri için işlem tasarlamaktan doğası gereği farklıdır
SELECT *
FROM user_table u
LEFT JOIN product_use p
ON u.userId = p.userId
WHERE country = 'USA'
AND utilization >= 0.6

SQL Warehouse Yapılandırma Seçenekleri

SQL Warehouse Yapılandırma Seçenekleri

Farklı türler farklı avantajlar sunar
Classic
Pro
Serverless

COPY INTO
COPY INTO my_table
FROM '/path/to/files'
FILEFORMAT = <format>
FORMAT_OPTIONS ('mergeSchema' = 'true')
COPY_OPTIONS ('mergeSchema' = 'true');
CREATE <entity> AS
CREATE TABLE events
USING DELTA
AS (
SELECT *
FROM raw_events
WHERE ...
)
Databricks Kavramları