Önyargı-varyans dengesi

R ile Ağaç Tabanlı Modellerle Machine Learning

Sandro Raabe

Data Scientist

Hiperparametreler

  • Model kurucu tarafından seçilir
  • ör. tree_depth
  • Belgeleri kontrol edin!
?decision_tree

birkaç hiperparametre

R ile Ağaç Tabanlı Modellerle Machine Learning

Basit model

simple_spec <- decision_tree(tree_depth = 2) %>% 
    set_mode("regression")

simple_spec %>% fit(final_grade ~ .,
                    data = training_data)

Karmaşık model

complex_spec <- decision_tree(tree_depth = 15) %>% 
    set_mode("regression")

complex_spec %>% fit(final_grade ~ .,
                     data = training_data)

derinlik 2 ağaç

derinlik 30 ağaç

R ile Ağaç Tabanlı Modellerle Machine Learning

Karmaşık model - aşırı uyum - yüksek varyans

Eğitim seti tahminleri: çok iyi!

eğitim setinde küçük hatalar

mae(train_results, 
    estimate = .pred,
    truth = final_grade)
# A tibble: 1 x 3
  .metric  .estimate
1 mae          0.204

Test seti tahminleri: yakın bile değil!

test setinde büyük hatalar

mae(test_results, 
    estimate = .pred,
    truth = final_grade)
# A tibble: 1 x 3
  .metric  .estimate
1 mae          0.947
R ile Ağaç Tabanlı Modellerle Machine Learning

Basit model - yetersiz öğrenme - yüksek önyargı

Eğitim ve test setlerinde büyük hatalar:

bind_rows(training = mae(train_results, estimate = .pred, truth = final_grade),
          test     = mae(test_results,  estimate = .pred, truth = final_grade),
          .id = "dataset")
# A tibble: 2 x 4
  dataset    .metric  .estimate
  <chr>      <chr>        <dbl>
1 training   mae          0.754
2 test       mae          0.844
R ile Ağaç Tabanlı Modellerle Machine Learning

Önyargı-varyans dengesi

önyargı-varyans dengesi

 

  • Basit modeller -> yüksek önyargı
  • Karmaşık modeller -> yüksek varyans
  • Önyargı-varyans dengesi
  • Modelleri tatlı noktada kurun
R ile Ağaç Tabanlı Modellerle Machine Learning

Aşırı uyumu tespit etme

Örnek dışı/Çapraz doğrulama:

collect_metrics(cv_fits)


# A tibble: 1 x 3
  .metric    mean     n 
1 mae       2.432     5
  • Yüksek ÇD hatası
  • Aşırı uyum / yüksek varyans
  • Karmaşıklığı azaltın!

Örnek içi:

mae(training_pred, 
    estimate = .pred, 
    truth = final_grade)
# A tibble: 1 x 2
  .metric  .estimate
1 mae          0.228
  • Küçük eğitim hatası
R ile Ağaç Tabanlı Modellerle Machine Learning

Yetersiz öğrenmeyi tespit etme

Örnek içi:

mae(training_pred, estimate = .pred, truth = final_grade)
# A tibble: 1 x 2
  .metric .estimate
  <chr>       <dbl>
1 mae         2.432
  • Büyük örnek içi/eğitim hatası
  • Yetersiz öğrenme / yüksek önyargı
  • Karmaşıklığı artırın!
R ile Ağaç Tabanlı Modellerle Machine Learning

Dengeleyelim!

R ile Ağaç Tabanlı Modellerle Machine Learning

Preparing Video For Download...