Melatih model machine learning pada dataset besar

Pemrograman Paralel dengan Dask di Python

James Fulton

Climate Informatics Researcher

Dask-ML

import dask_ml
  • Mempercepat tugas machine learning
Pemrograman Paralel dengan Dask di Python

Regresi linear

Contoh data dengan hubungan linear antara x dan y.

Pemrograman Paralel dengan Dask di Python

Regresi linear

Sebuah garis lurus telah di-fit ke data.

Pemrograman Paralel dengan Dask di Python

Regresi linear

Jarak antara garis lurus dan titik data nyata disorot.

Pemrograman Paralel dengan Dask di Python

Mem-fit model regresi linear

# Import regression model
from sklearn.linear_model import SGDRegressor

# Create instance of model
model = SGDRegressor()

# Fit model to data
model.fit(X, y)

# Make predictions
y_pred = model.predict(X)
Pemrograman Paralel dengan Dask di Python

Menggunakan model scikit-learn dengan Dask

# Import regression model
from sklearn.linear_model import SGDRegressor

# Create instance of model
model = SGDRegressor()


# Import Dask-ML wrapper for model from dask_ml.wrappers import Incremental
# Wrap model dask_model = Incremental(model, scoring='neg_mean_squared_error')
# Fit on Dask DataFrames or arrays dask_model.fit(dask_X, dask_y) # not lazy
Pemrograman Paralel dengan Dask di Python

Fitting butuh beberapa iterasi

Animasi menunjukkan garis lurus semakin akurat setelah beberapa iterasi fitting.

Pemrograman Paralel dengan Dask di Python

Melatih model Incremental

# Ulangi melalui data beberapa kali
for i in range(10):
    dask_model.partial_fit(dask_X, dask_y)  # not lazy    
Pemrograman Paralel dengan Dask di Python

Membuat prediksi

y_pred = dask_model.predict(dask_X)

print(y_pred)
dask.array<_predict, shape=(nan,), dtype=int64, chunksize=(nan,), chunktype=...>
print(y_pred.compute())
array([0.465557, 0.905675, 0.285214, ..., 0.249454, 0.559624, 0.823475])
Pemrograman Paralel dengan Dask di Python

Ayo berlatih!

Pemrograman Paralel dengan Dask di Python

Preparing Video For Download...