Machine learning con grandi dataset

Programmazione parallela con Dask in Python

James Fulton

Climate Informatics Researcher

Caricamento e preprocessing dei dati

# Carica un dataset tabellare
import dask.dataframe as dd
dask_df = dd.read_parquet("dataset_parquet")

X = dask_df[['feature1', 'feature2', 'feature3']]
y = dask_df['target_column']

from dask_ml.preprocessing import StandardScaler

scaler = StandardScaler()


scaler.fit(X)  # Non è lazy


standardized_X = scaler.transform(X)  # È lazy

Suddivisione train-test

from dask_ml.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, shuffle=True, test_size=0.2)

print(X_train)

Struttura Dask DataFrame:
        feature1    feature2    feature3
npartitions=7                               
           int64     float64     float64
             ...         ...         ...

Valutazione

# Valuta il modello sui dati di training
train_score = dask_model.score(X_train, y_train) # Non è lazy

print(train_score)

-0.12321

# Valuta il modello sui dati di test
test_score = dask_model.score(X_test, y_test)  # Non è lazy

print(test_score)

-0.23453

Passiamo alla pratica!

Programmazione parallela con Dask in Python