Datavoorbereiding voor segmentatie

Machine Learning voor marketing in Python

Karolis Urbonas

Head of Analytics & Science, Amazon

Modelaannames

  • We starten met K-means
  • K-means werkt goed als data 1) ~normaal verdeeld is (niet scheef) en 2) gestandaardiseerd (gemiddelde = 0, standaarddeviatie = 1)
  • Tweede model: NMF kan op ruwe data, vooral bij een sparse matrix
Machine Learning voor marketing in Python

Scheefheid verminderen met logtransformatie

# Eerste optie - logtransformatie
wholesale_log = np.log(wholesale)
sns.pairplot(wholesale_log, diag_kind='kde')
plt.show()
Machine Learning voor marketing in Python

Verken log-getransformeerde data

Pairplot log-getransformeerd

Machine Learning voor marketing in Python

Scheefheid verminderen met Box-Cox

# Tweede optie - Box-Cox-transformatie
from scipy import stats

def boxcox_df(x):
    x_boxcox, _ = stats.boxcox(x)
    return x_boxcox

wholesale_boxcox = wholesale.apply(boxcox_df, axis=0)
sns.pairplot(wholesale_boxcox, diag_kind='kde')
plt.show()
Machine Learning voor marketing in Python

Verken Box-Cox-getransformeerde data

Pairplot Box-Cox

Machine Learning voor marketing in Python

Schaal de data

  • Trek het kolomgemiddelde af van elke kolomwaarde
  • Deel elke kolomwaarde door de kolomstandaarddeviatie
  • We gebruiken de module StandardScaler() uit sklearn
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

scaler.fit(wholesale_boxcox) wholesale_scaled = scaler.transform(wholesale_boxcox) wholesale_scaled_df = pd.DataFrame(data=wholesale_scaled, index=wholesale_boxcox.index, columns=wholesale_boxcox.columns) wholesale_scaled_df.agg(['mean','std']).round()
      Fresh  Milk  Grocery  Frozen  Detergents_Paper  Delicassen
mean   -0.0   0.0      0.0     0.0              -0.0         0.0
std     1.0   1.0      1.0     1.0               1.0         1.0
Machine Learning voor marketing in Python

Laten we oefenen!

Machine Learning voor marketing in Python

Preparing Video For Download...