Düşük bilgi içeren yordayıcılarla başa çıkma

R ile caret kullanarak Machine Learning

Zach Mayer

Data Scientist at DataRobot and co-author of caret

Varyansı olmayan (veya düşük) değişkenler

  • Bazı değişkenler çok az bilgi içerir
    • Sabit (yani varyans yok)
    • Neredeyse sabit (yani düşük varyans)
  • Çapraz doğrulamanın bir katında sütun sabit kalabilir
    • Modellerde sorunlara yol açabilir
  • Genelde çok düşük varyanslı değişkenler kaldırılır
R ile caret kullanarak Machine Learning

Örnek: mtcars'ta sabit sütun

# Son videodaki veri setini yeniden üret
data(mtcars)
set.seed(42)
mtcars[sample(1:nrow(mtcars), 10), "hp"] <- NA
Y <- mtcars$mpg
X <- mtcars[, 2:4]
# mtcars'a sabit değerli bir sütun ekle
X$bad <- 1
R ile caret kullanarak Machine Learning

Örnek: mtcars'ta sabit sütun

# PCA + glm ile bir model kurmayı dene
model <- train(
  X, Y, method = "glm", 
  preProcess = c("center", "scale", "medianImpute", "pca"))
Warning in preProcess.default(thresh = 0.95, k = 5, method = c("medianImpute",  :
  These variables have zero variances: bad
Something is wrong; all the RMSE metric values are missing:
      RMSE        Rsquared  
 Min.   : NA   Min.   : NA  
 1st Qu.: NA   1st Qu.: NA  
 Median : NA   Median : NA  
 Mean   :NaN   Mean   :NaN  
 3rd Qu.: NA   3rd Qu.: NA  
 Max.   : NA   Max.   : NA  
 NA's   :1     NA's   :1   
R ile caret kullanarak Machine Learning

caret yine yardıma koşuyor

  • "zv" sabit sütunları kaldırır
  • "nzv" neredeyse sabit sütunları kaldırır
# Modelleme sırasında bu sütunları caret kaldırsın
set.seed(42)
model <- train(
  X, Y, method = "glm", 
  preProcess = c("zv", "center", "scale", "medianImpute", "pca")
)
min(model$results$RMSE)
3.402557
R ile caret kullanarak Machine Learning

Hadi pratik yapalım!

R ile caret kullanarak Machine Learning

Preparing Video For Download...