Van workflows naar pipelines

Machine Learning-workflows ontwerpen in Python

Dr. Chris Anagnostopoulos

Honorary Associate Professor

Onze workflow herzien

from sklearn.ensemble import RandomForestClassifier as rf
X_train, X_test, y_train, y_test = train_test_split(X, y)
grid_search = GridSearchCV(rf(), param_grid={'max_depth': [2, 5, 10]})
grid_search.fit(X_train, y_train)
depth = grid_search.best_params_['max_depth']
vt = SelectKBest(f_classif, k=3).fit(X_train, y_train)
clf = rf(max_depth=best_value).fit(vt.transform(X_train), y_train)
accuracy_score(clf.predict(vt.transform(X_test), y_test))
Machine Learning-workflows ontwerpen in Python

De kracht van grid search

Optimaliseer max_depth:

pg = {'max_depth': [2,5,10]}
gs = GridSearchCV(rf(),  
   param_grid=pg)
gs.fit(X_train, y_train)
depth = gs.best_params_['max_depth']

Een tabel met alle combinaties van diepte en aantal estimators; drie waarden zijn getest en één is het best.

Machine Learning-workflows ontwerpen in Python

De kracht van grid search

Optimaliseer dan n_estimators:

pg = {'n_estimators': [10,20,30]}
gs = GridSearchCV(
   rf(max_depth=depth),  
   param_grid=pg)
gs.fit(X_train, y_train)
n_est = gs.best_params_[
    'n_estimators']

Een tabel met alle combinaties van diepte en aantal estimators; vijf waarden zijn getest en een andere is het best.

Machine Learning-workflows ontwerpen in Python

De kracht van grid search

Gezamenlijk max_depth en n_estimators:

pg = {
   'max_depth': [2,5,10],
   'n_estimators': [10,20,30]
}
gs = GridSearchCV(rf(),  
   param_grid=pg)
gs.fit(X_train, y_train)
print(gs.best_params_) 

{'max_depth': 10, 'n_estimators': 20}

Een tabel met alle combinaties van diepte en aantal estimators; alle waarden zijn getest en dezelfde is het best.

Machine Learning-workflows ontwerpen in Python

Pipelines

In dit diagram is het random forest, met twee hyperparameters, via een pijl verbonden met de feature selector, die één hyperparameter heeft.

Machine Learning-workflows ontwerpen in Python

Pipelines

Beide objecten zijn samengevoegd in één kader.

Machine Learning-workflows ontwerpen in Python

Pipelines

from sklearn.pipeline import Pipeline
pipe = Pipeline([
    ('feature_selection', SelectKBest(f_classif)), 
    ('classifier', RandomForestClassifier())
])

params = dict( feature_selection__k=[2, 3, 4], classifier__max_depth=[5, 10, 20] )
grid_search = GridSearchCV(pipe, param_grid=params) gs = grid_search.fit(X_train, y_train).best_params_
{'classifier__max_depth': 20, 'feature_selection__k': 4}
Machine Learning-workflows ontwerpen in Python

Je pipeline aanpassen

from sklearn.metrics import roc_auc_score, make_scorer
auc_scorer = make_scorer(roc_auc_score)

grid_search = GridSearchCV(pipe, param_grid=params, scoring=auc_scorer)
Machine Learning-workflows ontwerpen in Python

Overdrijf niet

params = dict(
    feature_selection__k=[2, 3, 4], 
    clf__max_depth=[5, 10, 20], 
    clf__n_estimators=[10, 20, 30] 
)
grid_search = GridSearchCV(pipe, params, cv=10)

3 x 3 x 3 x 10 = 270 classifier-fits!

Machine Learning-workflows ontwerpen in Python

Workflows met turbo

Machine Learning-workflows ontwerpen in Python

Preparing Video For Download...