Konsep Databricks
Kevin Barlow
Data Practitioner

Spark sangat fleksibel dan dapat membaca dari berbagai sumber/tipe data.
Sumber dan tipe data umum:



Spark sangat fleksibel dan dapat membaca dari berbagai sumber/tipe data.
Sumber dan tipe data umum:
#Delta table
spark.read.table()
#CSV files
spark.read.format('csv').load('*.csv')
#Postgres table
spark.read.format("jdbc")
.option("driver", driver)
.option("url", url)
.option("dbtable", table)
.option("user", user)
.option("password", password)
.load()
Tabel Delta memberi sifat seperti tabel pada format berkas terbuka.



DataFrame adalah representasi data dua dimensi.
| id | customerName | bookTitle |
|---|---|---|
| 1 | John Data | Guide to Spark |
| 2 | Sally Bricks | SQL for Data Engineering |
| 3 | Adam Delta | Keeping Data Clean |
df = (spark.read
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("/data.csv"))
Jenis tabel di Databricks
df.write.saveAsTable(table_name)
CREATE TABLE table_name
USING delta
AS ...
df.write
.location('').saveAsTable(table_name)
CREATE TABLE table_name
USING delta
LOCATION "<path>"
AS ...
Konsep Databricks