Databricks’te Veri Mühendisliği temelleri

Databricks Kavramları

Kevin Barlow

Data Practitioner

Madalyon mimarisi

Madalyon Mimarisi Diyagramı

Databricks Kavramları

Veri okuma

Spark, esnek bir çerçevedir ve çeşitli veri kaynaklarını/tiplerini okuyabilir.

Yaygın veri kaynakları ve tipleri:

  • Delta tabloları
  • Dosya biçimleri (CSV, JSON, Parquet, XML)
  • Veritabanları (MySQL, Postgres, EDW)
  • Akan veri
  • Görseller / Videolar

Veri Kaynakları - Dosya Biçimleri

Veri Kaynakları - Veritabanları

Veri Kaynakları - Yeni Biçimler

Databricks Kavramları

Veri okuma

Spark, esnek bir çerçevedir ve çeşitli veri kaynaklarını/tiplerini okuyabilir.

Yaygın veri kaynakları ve tipleri:

  • Delta tabloları
  • Dosya biçimleri (CSV, JSON, Parquet, XML)
  • Veritabanları (MySQL, Postgres, EDW)
  • Akan veri
  • Görseller / Videolar
#Delta table
spark.read.table()
#CSV files
spark.read.format('csv').load('*.csv')
#Postgres table
spark.read.format("jdbc")
  .option("driver", driver)
  .option("url", url)
  .option("dbtable", table)
  .option("user", user)
  .option("password", password)
  .load()
Databricks Kavramları

Bir Delta tablosunun yapısı

Bir Delta tablosu, açık bir dosya biçimine tablo benzeri özellikler kazandırır.

  • Okurken tablo gibi hissedilir
  • Alttaki dosyalara erişim (Parquet ve JSON)

Delta Yapısı

Databricks Kavramları

Delta Lake yapısını açıklama

Tarif Kartı - Yiyecek Görseli

Tarif Kartı - Malzemeler ve Adımlar

Databricks Kavramları

DataFrame’ler

DataFrame’ler verinin iki boyutlu gösterimleridir.

  • Tabloya benzer görünür
  • Birçok veri aracında benzer kavram
    • Spark (varsayılan), pandas, dplyr, SQL sorguları
  • Çoğu veri sürecinin temel yapısı
id customerName bookTitle
1 John Data Guide to Spark
2 Sally Bricks SQL for Data Engineering
3 Adam Delta Keeping Data Clean
df = (spark.read
  .format("csv")
  .option("header", "true")
  .option("inferSchema", "true")
  .load("/data.csv"))
Databricks Kavramları

Veri yazma

Databricks’te tablo türleri

  1. Yönetilen tablolar
    • Varsayılan tür
    • Unity Catalog ile saklanır
    • Databricks tarafından yönetilir
  2. Harici tablolar
    • Başka bir konumda saklanır
    • LOCATION ayarlanır
    • Müşteri tarafından yönetilir
df.write.saveAsTable(table_name)

CREATE TABLE table_name 
USING delta 
AS ...
df.write
  .location('').saveAsTable(table_name)

CREATE TABLE table_name 
USING delta 
LOCATION "<path>" 
AS ...
Databricks Kavramları

Haydi pratik yapalım!

Databricks Kavramları

Preparing Video For Download...