Machine Learning de bout en bout
Joshua Stapleton
Machine Learning Engineer
Créer des caractéristiques
Techniques
Avantages

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import Normalizer
# Séparer les données
X_train, X_test = train_test_split(df, test_size=0.2, random_state=42)
# Créer l’objet normalizer, l’ajuster sur l’entraînement, normaliser et transformer le test
norm = Normalizer()
X_train_norm = norm.fit_transform(X_train)
X_test_norm = norm.transform(X_test)
from sklearn.preprocessing import StandardScaler
# Séparer les données
X_train, X_test = train_test_split(df, test_size=0.2, random_state=42)
# Créer un scaler et ajuster l’entraînement pour standardiser
sc = StandardScaler()
X_train_stzd = sc.fit_transform(X_train)
# Standardiser uniquement le test
X_test_stzd = sc.transform(X_test)


from sklearn.ensemble import RandomForestClassifier from sklearn.feature_selection import SelectFromModel from sklearn.model_selection import train_test_split# Séparer d’abord en train/test pour éviter les fuites de données X_train, X_test, y_train, y_test = train_test_split( heart_disease_df_X, heart_disease_df_y, test_size=0.2, random_state=42)
# Définir et ajuster le modèle random forest rf = RandomForestClassifier(n_jobs=-1, class_weight='balanced', max_depth=5) rf.fit(X_train, y_train)# Définir et exécuter la sélection de variables model = SelectFromModel(rf, prefit=True) features_bool = model.get_support() features = heart_disease_df.columns[features_bool]
Machine Learning de bout en bout