Preparazione dei dati per la segmentazione

Machine Learning per il marketing con Python

Karolis Urbonas

Head of Analytics & Science, Amazon

Assunzioni del modello

  • Iniziamo con K-means
  • K-means funziona bene quando i dati sono 1) ~normali (senza skew) e 2) standardizzati (media = 0, dev. std = 1)
  • Secondo modello: NMF, utilizzabile su dati grezzi, soprattutto se la matrice è sparsa
Machine Learning per il marketing con Python

Correggere lo skew con la trasformazione log

# Prima opzione: trasformazione log
wholesale_log = np.log(wholesale)
sns.pairplot(wholesale_log, diag_kind='kde')
plt.show()
Machine Learning per il marketing con Python

Esplora i dati trasformati con log

Pairplot trasformati con log

Machine Learning per il marketing con Python

Correggere lo skew con la trasformazione Box-Cox

# Seconda opzione: trasformazione Box-Cox
from scipy import stats

def boxcox_df(x):
    x_boxcox, _ = stats.boxcox(x)
    return x_boxcox

wholesale_boxcox = wholesale.apply(boxcox_df, axis=0)
sns.pairplot(wholesale_boxcox, diag_kind='kde')
plt.show()
Machine Learning per il marketing con Python

Explore Box-Cox transformed data

Pairplot Box-Cox

Machine Learning per il marketing con Python

Scala i dati

  • Sottrai la media di colonna da ogni valore
  • Dividi ogni valore per la deviazione standard della colonna
  • Usiamo il modulo StandardScaler() di sklearn
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

scaler.fit(wholesale_boxcox) wholesale_scaled = scaler.transform(wholesale_boxcox) wholesale_scaled_df = pd.DataFrame(data=wholesale_scaled, index=wholesale_boxcox.index, columns=wholesale_boxcox.columns) wholesale_scaled_df.agg(['mean','std']).round()
      Fresh  Milk  Grocery  Frozen  Detergents_Paper  Delicassen
mean   -0.0   0.0      0.0     0.0              -0.0         0.0
std     1.0   1.0      1.0     1.0               1.0         1.0
Machine Learning per il marketing con Python

Passons à la pratique !

Machine Learning per il marketing con Python

Preparing Video For Download...