Datavoorbereiding voor segmentatie

Machine Learning voor marketing in Python

Karolis Urbonas

Head of Analytics & Science, Amazon

Modelaannames

We starten met K-means
K-means werkt goed als data 1) ~normaal verdeeld is (niet scheef) en 2) gestandaardiseerd (gemiddelde = 0, standaarddeviatie = 1)
Tweede model: NMF kan op ruwe data, vooral bij een sparse matrix

Scheefheid verminderen met logtransformatie

# Eerste optie - logtransformatie
wholesale_log = np.log(wholesale)

sns.pairplot(wholesale_log, diag_kind='kde')
plt.show()

Verken log-getransformeerde data

Pairplot log-getransformeerd

Scheefheid verminderen met Box-Cox

# Tweede optie - Box-Cox-transformatie
from scipy import stats

def boxcox_df(x):
    x_boxcox, _ = stats.boxcox(x)
    return x_boxcox

wholesale_boxcox = wholesale.apply(boxcox_df, axis=0)

sns.pairplot(wholesale_boxcox, diag_kind='kde')
plt.show()

Verken Box-Cox-getransformeerde data

Pairplot Box-Cox

Schaal de data

Trek het kolomgemiddelde af van elke kolomwaarde
Deel elke kolomwaarde door de kolomstandaarddeviatie
We gebruiken de module StandardScaler() uit sklearn

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

scaler.fit(wholesale_boxcox)
wholesale_scaled = scaler.transform(wholesale_boxcox)
wholesale_scaled_df = pd.DataFrame(data=wholesale_scaled,
                                   index=wholesale_boxcox.index,
                                   columns=wholesale_boxcox.columns)
wholesale_scaled_df.agg(['mean','std']).round()

      Fresh  Milk  Grocery  Frozen  Detergents_Paper  Delicassen
mean   -0.0   0.0      0.0     0.0              -0.0         0.0
std     1.0   1.0      1.0     1.0               1.0         1.0

Laten we oefenen!

Machine Learning voor marketing in Python