Databricks Kavramları
Kevin Barlow
Data Practitioner

Spark, esnek bir çerçevedir ve çeşitli veri kaynaklarını/tiplerini okuyabilir.
Yaygın veri kaynakları ve tipleri:



Spark, esnek bir çerçevedir ve çeşitli veri kaynaklarını/tiplerini okuyabilir.
Yaygın veri kaynakları ve tipleri:
#Delta table
spark.read.table()
#CSV files
spark.read.format('csv').load('*.csv')
#Postgres table
spark.read.format("jdbc")
.option("driver", driver)
.option("url", url)
.option("dbtable", table)
.option("user", user)
.option("password", password)
.load()
Bir Delta tablosu, açık bir dosya biçimine tablo benzeri özellikler kazandırır.



DataFrame’ler verinin iki boyutlu gösterimleridir.
| id | customerName | bookTitle |
|---|---|---|
| 1 | John Data | Guide to Spark |
| 2 | Sally Bricks | SQL for Data Engineering |
| 3 | Adam Delta | Keeping Data Clean |
df = (spark.read
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("/data.csv"))
Databricks’te tablo türleri
df.write.saveAsTable(table_name)
CREATE TABLE table_name
USING delta
AS ...
df.write
.location('').saveAsTable(table_name)
CREATE TABLE table_name
USING delta
LOCATION "<path>"
AS ...
Databricks Kavramları