Databricks-concepten
Kevin Barlow
Data Practitioner

Spark is zeer flexibel en kan uit veel databronnen/-typen lezen.
Veelvoorkomende bronnen en typen:



Spark is zeer flexibel en kan uit veel databronnen/-typen lezen.
Veelvoorkomende bronnen en typen:
#Delta-tabel
spark.read.table()
#CSV-bestanden
spark.read.format('csv').load('*.csv')
#Postgres-tabel
spark.read.format("jdbc")
.option("driver", driver)
.option("url", url)
.option("dbtable", table)
.option("user", user)
.option("password", password)
.load()
Een Delta-tabel geeft een open bestandsformaat tabelachtige eigenschappen.



DataFrames zijn tweedimensionale weergaven van data.
| id | customerName | bookTitle |
|---|---|---|
| 1 | John Data | Guide to Spark |
| 2 | Sally Bricks | SQL for Data Engineering |
| 3 | Adam Delta | Keeping Data Clean |
df = (spark.read
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("/data.csv"))
Soorten tabellen in Databricks
df.write.saveAsTable(table_name)
CREATE TABLE table_name
USING delta
AS ...
df.write
.location('').saveAsTable(table_name)
CREATE TABLE table_name
USING delta
LOCATION "<path>"
AS ...
Databricks-concepten