Menyimpan data dengan pandas

ETL dan ELT di Python

Jake Roach

Data Engineer

Menyimpan data di pipeline ETL

Memuat data ke file:

  • Memastikan pengguna data selalu dapat mengakses data yang telah diubah
  • Terjadi sebagai langkah akhir dalam ETL, serta di antara langkah-langkah terpisah
  • Menangkap "snapshot" data
ETL dan ELT di Python

Memuat data ke file CSV dengan pandas

Metode .to_csv()

import pandas as pd

# Data extraction and transformation
raw_data = pd.read_csv("raw_stock_data.csv")
stock_data = raw_data.loc[raw_data["open"] > 100, ["timestamps", "open"]]

# Load data to a .csv file
stock_data.to_csv("stock_data.csv")
  • .to_csv dipanggil pada DataFrame
  • Menulis DataFrame ke path "stock_data.csv"
ETL dan ELT di Python

Menyesuaikan keluaran file CSV

stock_data.to_csv("./stock_data.csv", header=True)
  • Menerima True, False, atau daftar nilai string
stock_data.to_csv("./stock_data.csv", index=True)
  • Menerima True atau False
  • Menentukan apakah kolom index ditulis ke file
stock_data.to_csv("./stock_data.csv", sep="|")
  • Menerima string pemisah kolom dalam file
  • Karakter | adalah opsi yang umum

Memiliki padanan:

  • .to_parquet()
  • .to_json()
  • .to_sql()
1 https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html
ETL dan ELT di Python

Memastikan data persisten

Apakah DataFrame tersimpan dengan benar ke file CSV?

import pandas
import os  # Import the os module

# Extract, transform and load data
raw_data = pd.read_csv("raw_stock_data.csv")
stock_data = raw_data.loc[raw_data["open"] > 100, ["timestamps", "open"]]
stock_data.to_csv("stock_data.csv")

# Check that the path exists
file_exists = os.path.exists("stock_data.csv")
print(file_exists)
True
ETL dan ELT di Python

Ayo berlatih!

ETL dan ELT di Python

Preparing Video For Download...