Python ile Dask ile Paralel Programlama
James Fulton
Climate Informatics Researcher
# Tablo veri kümesini yükleyin
import dask.dataframe as dd
dask_df = dd.read_parquet("dataset_parquet")
X = dask_df[['feature1', 'feature2', 'feature3']]
y = dask_df['target_column']
from dask_ml.preprocessing import StandardScaler scaler = StandardScaler()scaler.fit(X) # Bu tembel (lazy) değildirstandardized_X = scaler.transform(X) # Bu tembeldir (lazy)
from dask_ml.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, y, shuffle=True, test_size=0.2)print(X_train)
Dask DataFrame Yapısı:
feature1 feature2 feature3
npartitions=7
int64 float64 float64
... ... ...
# Eğitilmiş modeli eğitim verisi üzerinde test edin train_score = dask_model.score(X_train, y_train) # Tembel (lazy) değildirprint(train_score)
-0.12321
# Eğitilmiş modeli test verisi üzerinde test edin test_score = dask_model.score(X_test, y_test) # Tembel (lazy) değildirprint(test_score)
-0.23453
Python ile Dask ile Paralel Programlama