Büyük veri kümelerinde makine öğrenimi modellerini eğitme

Python ile Dask ile Paralel Programlama

James Fulton

Climate Informatics Researcher

Dask-ML

import dask_ml
  • Makine öğrenimi görevlerini hızlandırır
Python ile Dask ile Paralel Programlama

Doğrusal regresyon

x ve y arasında doğrusal ilişki içeren örnek veri.

Python ile Dask ile Paralel Programlama

Doğrusal regresyon

Veriye bir doğru uydurulmuştur.

Python ile Dask ile Paralel Programlama

Doğrusal regresyon

Doğru ile gerçek veri noktaları arasındaki mesafe vurgulanır.

Python ile Dask ile Paralel Programlama

Doğrusal regresyon modeli uydurma

# Import regression model
from sklearn.linear_model import SGDRegressor

# Create instance of model
model = SGDRegressor()

# Fit model to data
model.fit(X, y)

# Make predictions
y_pred = model.predict(X)
Python ile Dask ile Paralel Programlama

Dask ile bir scikit-learn modelini kullanma

# Import regression model
from sklearn.linear_model import SGDRegressor

# Create instance of model
model = SGDRegressor()


# Import Dask-ML wrapper for model from dask_ml.wrappers import Incremental
# Wrap model dask_model = Incremental(model, scoring='neg_mean_squared_error')
# Fit on Dask DataFrames or arrays dask_model.fit(dask_X, dask_y) # not lazy
Python ile Dask ile Paralel Programlama

Uydurma birden çok yineleme gerektirir

Doğru, birden çok yinelemeden sonra daha isabetli uyum sağlar.

Python ile Dask ile Paralel Programlama

Artımlı bir modeli eğitme

# Loop through data multiple times
for i in range(10):
    dask_model.partial_fit(dask_X, dask_y)  # not lazy    
Python ile Dask ile Paralel Programlama

Tahmin üretme

y_pred = dask_model.predict(dask_X)

print(y_pred)
dask.array<_predict, shape=(nan,), dtype=int64, chunksize=(nan,), chunktype=...>
print(y_pred.compute())
array([0.465557, 0.905675, 0.285214, ..., 0.249454, 0.559624, 0.823475])
Python ile Dask ile Paralel Programlama

Hadi pratik yapalım!

Python ile Dask ile Paralel Programlama

Preparing Video For Download...