Visualisation de la transformation PCA

Apprentissage non supervisé en Python

Benjamin Wilson

Director of Research at lateral.io

Réduction de dimension

Stockage et calcul plus efficaces
Supprimer les caractéristiques « parasites » moins informatives
… ce qui pose des problèmes pour les tâches de prédiction, par exemple la classification ou la régression

Fait pivoter les échantillons de données afin de les aligner avec les axes
Déplace les échantillons de données de manière à ce qu'ils aient une moyenne de 0
Aucune information n'est perdue

scatter plot of wines data with rotated axes

[[ 2.8   3.92]
 ...
 [ 2.05  1.6 ]]

from sklearn.decomposition import PCA

model = PCA()
model.fit(samples)

PCA()

transformed = model.transform(samples)

Les lignes transformées correspondent aux échantillons
Les colonnes transformées sont les « caractéristiques PCA »
La ligne fournit les valeurs des caractéristiques PCA de l'échantillon correspondant

print(transformed)

[[  1.32771994e+00   4.51396070e-01]
 [  8.32496068e-01   2.33099664e-01]
 ...
 [ -9.33526935e-01  -4.60559297e-01]]

Les caractéristiques des ensembles de données sont souvent corrélées, par exemple total_phenols et od280
PCA aligne les données avec les axes
Les caractéristiques PCA obtenues ne sont pas corrélées de manière linéaire (« décorrélation »)

scatter plot of wines data with rotated axes

3 scatter plots with correlation 0.7, 0, and -0.7

scatter plot of wines data with 2 red arrows showing direction of principal components (rotated axes)

print(model.components_)

[[ 0.64116665  0.76740167]
 [-0.76740167  0.64116665]]

Apprentissage non supervisé en Python