Mengambil Data

Pengantar Databricks SQL

Kevin Barlow

Data Manager

Motivasi

Diagram Alur Lakehouse

Pengantar Databricks SQL

Membangun lakehouse

Diagram Alur Lakehouse - Ingesti

Pengantar Databricks SQL

Opsi berbasis GUI

Lakeflow Connect

  • Konektor bawaan untuk ingest data
    • Database
    • Aplikasi SaaS
  • Membuat pipeline agar data selalu mutakhir

Lakeflow Connect

Unggah data

  • Unggah file secara manual
    • CSV, Parquet, dll.
  • Cepat membuat tabel Delta baru
  • Cocok untuk unggahan ad hoc

Unggah Data Manual

Pengantar Databricks SQL

Membawa data ke lakehouse

COPY INTO

  • Salin data dari cloud object storage langsung ke tabel Delta
  • Lebih baik untuk dataset yang lebih statis
  • Dapat dijalankan langsung di SQL Editor
COPY INTO my_table
FROM '/path/to/files'
FILEFORMAT = PARQUET
FORMAT_OPTIONS ('mergeSchema' = 'true')
COPY_OPTIONS ('mergeSchema' = 'true')

Auto Loader

  • Secara otomatis mengingesti file data baru dari cloud storage
  • Lebih baik untuk dataset besar dan berubah
  • Memanfaatkan Delta Live Tables di SQL
CREATE TABLE customers
AS SELECT * 
FROM cloud_files(
  "/path/to/files", 
  "csv")
Pengantar Databricks SQL

Ayo berlatih!

Pengantar Databricks SQL

Preparing Video For Download...