Distribuzione del modello

Progettare workflow di Machine Learning in Python

Dr. Chris Anagnostopoulos

Honorary Associate Professor

Un oggetto pipeline che include selezione feature, scelta modello, tuning e training viene inviato a produzione, che usa la pipeline addestrata per la predizione.

Progettare workflow di Machine Learning in Python

Serializzare il modello

Salva un classificatore su file:

import pickle
clf = RandomForestClassifier().fit(X_train, y_train)
with open('model.pkl', 'wb') as file:
    pickle.dump(clf, file=file)

Ricaricalo dal file:

with open('model.pkl', 'rb') as file:
    clf2 = pickle.load(file)
Progettare workflow di Machine Learning in Python

Serializzare la pipeline

Ambiente di sviluppo:

vt = SelectKBest(f_classif).fit(
    X_train, y_train)
clf = RandomForestClassifier().fit(
    vt.transform(X_train), y_train)
with open('vt.pkl', 'wb') as file: 
     pickle.dump(vt)
with open('clf.pkl', 'wb') as file: 
     pickle.dump(clf)

Un workflow in cui selettore di feature e modello addestrato devono essere inviati separatamente in produzione.

Progettare workflow di Machine Learning in Python

Serializzare la pipeline

Ambiente di produzione:

with open('vt.pkl', 'rb') as file: 
    vt = pickle.load(vt)
with open('clf.pkl', 'rb') as file: 
    clf = pickle.load(clf)
clf.predict(vt.transform(X_new))

Un workflow in cui selettore di feature e modello addestrato devono essere inviati separatamente in produzione.

Progettare workflow di Machine Learning in Python

Serializzare la pipeline

Ambiente di sviluppo:

pipe = Pipeline([
    ('fs', SelectKBest(f_classif)), 
    ('clf', RandomForestClassifier())
])
params = dict(fs__k=[2, 3, 4],
    clf__max_depth=[5, 10, 20])
gs = GridSearchCV(pipe, params)
gs = gs.fit(X_train, y_train)

with open('pipe.pkl', 'wb') as file: pickle.dump(gs, file)

Un workflow ottimizzato in cui selezione delle feature e training del modello sono in un unico oggetto pipeline.

Progettare workflow di Machine Learning in Python

Serializzare la pipeline

Ambiente di produzione:

with open('pipe.pkl', 'rb') as file:
   gs = pickle.dump(gs, file)
gs.predict(X_test)

Un workflow ottimizzato in cui selezione delle feature e training del modello sono in un unico oggetto pipeline.

Progettare workflow di Machine Learning in Python

Trasformazioni personalizzate delle feature

   checking_status  duration       ...        own_telephone  foreign_worker
0                1         6       ...                    1               1
1                0        48       ...                    0               1
def negate_second_column(X):
    Z = X.copy()
    Z[:,1] = -Z[:,1]
    return Z
pipe = Pipeline([('ft', FunctionTransformer(negate_second_column)), 
    ('clf', RandomForestClassifier())])
Progettare workflow di Machine Learning in Python

Pronto per la produzione!

Progettare workflow di Machine Learning in Python

Preparing Video For Download...