Introductie van de casestudy

Unsupervised learning in R

Hank Roark

Senior Data Scientist at Boeing

Doelstellingen

  • Maak een volledige analyse met onbegeleid leren
  • Versterk wat je al hebt geleerd
  • Voeg stappen toe die eerder niet aan bod kwamen (bv. data voorbereiden, goede features kiezen voor begeleid leren)
  • Benadruk creativiteit
Unsupervised learning in R

Voorbeeld-usecase

  • Gegevens over menselijke borstweefselmassa:
    • Tien kenmerken gemeten van elke celkern
    • Samenvattende info voor elke celgroep
    • Bevat diagnose: goedaardig (niet kankerverwekkend) en kwaadaardig (kankerverwekkend)
1 Bron: K. P. Bennett en O. L. Mangasarian: "Robust Linear Programming Discrimination of Two Linearly Inseparable Sets"
Unsupervised learning in R

Analyse

  • Download data en bereid data voor op modelleren
  • Verkennende data-analyse (# observaties, # features, enz.)
  • Voer PCA uit en interpreteer de resultaten
  • Voer twee soorten clustering uit
  • Begrijp en vergelijk beide typen
  • Combineer PCA en clustering
Unsupervised learning in R

Herhaling: PCA in R

pr.iris <- prcomp(x = iris[-5],
                  scale = FALSE,
                  center = TRUE)
summary(pr.iris)
Importance of components:
                          PC1     PC2    PC3     PC4
Standard deviation     2.0563 0.49262 0.2797 0.15439
Proportion of Variance 0.9246 0.05307 0.0171 0.00521
Cumulative Proportion  0.9246 0.97769 0.9948 1.00000
Unsupervised learning in R

Onbegeleid leren is open-einde

  • De stappen in deze usecase zijn slechts één voorbeeld van wat kan
  • Er zijn andere manieren om deze dataset te analyseren
Unsupervised learning in R

Laten we oefenen!

Unsupervised learning in R

Preparing Video For Download...