Modeldeployen

Machine Learning-workflows ontwerpen in Python

Dr. Chris Anagnostopoulos

Honorary Associate Professor

Een model-pipeline met featureselectie, modelselectie, tuning en training wordt naar productie gepusht en daar gebruikt voor voorspellen.

Machine Learning-workflows ontwerpen in Python

Je model serialiseren

Sla een classifier op naar bestand:

import pickle
clf = RandomForestClassifier().fit(X_train, y_train)
with open('model.pkl', 'wb') as file:
    pickle.dump(clf, file=file)

Laad weer uit bestand:

with open('model.pkl', 'rb') as file:
    clf2 = pickle.load(file)
Machine Learning-workflows ontwerpen in Python

Je pipeline serialiseren

Ontwikkelomgeving:

vt = SelectKBest(f_classif).fit(
    X_train, y_train)
clf = RandomForestClassifier().fit(
    vt.transform(X_train), y_train)
with open('vt.pkl', 'wb') as file: 
     pickle.dump(vt)
with open('clf.pkl', 'wb') as file: 
     pickle.dump(clf)

Een workflow waarbij een featureselector en een getraind model allebei apart naar productie moeten.

Machine Learning-workflows ontwerpen in Python

Je pipeline serialiseren

Productie-omgeving:

with open('vt.pkl', 'rb') as file: 
    vt = pickle.load(vt)
with open('clf.pkl', 'rb') as file: 
    clf = pickle.load(clf)
clf.predict(vt.transform(X_new))

Een workflow waarbij een featureselector en een getraind model allebei apart naar productie moeten.

Machine Learning-workflows ontwerpen in Python

Je pipeline serialiseren

Ontwikkelomgeving:

pipe = Pipeline([
    ('fs', SelectKBest(f_classif)), 
    ('clf', RandomForestClassifier())
])
params = dict(fs__k=[2, 3, 4],
    clf__max_depth=[5, 10, 20])
gs = GridSearchCV(pipe, params)
gs = gs.fit(X_train, y_train)

with open('pipe.pkl', 'wb') as file: pickle.dump(gs, file)

Een geoptimaliseerde workflow waarin zowel featureselectie als modeltraining in één pipeline-object zitten.

Machine Learning-workflows ontwerpen in Python

Je pipeline serialiseren

Productie-omgeving:

with open('pipe.pkl', 'rb') as file:
   gs = pickle.dump(gs, file)
gs.predict(X_test)

Een geoptimaliseerde workflow waarin zowel featureselectie als modeltraining in één pipeline-object zitten.

Machine Learning-workflows ontwerpen in Python

Aangepaste featuretransformaties

   checking_status  duration       ...        own_telephone  foreign_worker
0                1         6       ...                    1               1
1                0        48       ...                    0               1
def negate_second_column(X):
    Z = X.copy()
    Z[:,1] = -Z[:,1]
    return Z
pipe = Pipeline([('ft', FunctionTransformer(negate_second_column)), 
    ('clf', RandomForestClassifier())])
Machine Learning-workflows ontwerpen in Python

Klaar voor productie!

Machine Learning-workflows ontwerpen in Python

Preparing Video For Download...