Ensembling model

Memenangi Kompetisi Kaggle dengan Python

Yauhen Babakhin

Kaggle Grandmaster

Ensembling model

desain ensemble dari solusi pemenang di kompetisi Kaggle

Memenangi Kompetisi Kaggle dengan Python

Model blending

  • Masalah regresi
  • Latih dua model berbeda: A dan B
  • Buat prediksi pada data uji:
Test ID Prediksi Model A Prediksi Model B
1 1.2 1.5
2 0.1 0.4
3 5.4 7.2
Memenangi Kompetisi Kaggle dengan Python

Model blending

 

Test ID Prediksi Model A Prediksi Model B Rata-rata aritmetika
1 1.2 1.5 1.35
2 0.1 0.4 0.25
3 5.4 7.2 6.30
Memenangi Kompetisi Kaggle dengan Python

Model blending

 

Rata-rata aritmetika

$$arithmetic = \frac{1}{n}\sum_{i=1}^{n}{x_i}$$

Rata-rata geometri

$$geometric = \Bigg({\prod_{i=1}^{n}{x_i}}\Bigg)^{\frac{1}{n}}$$

Memenangi Kompetisi Kaggle dengan Python

Model stacking

 

  1. Bagi data latih menjadi dua bagian
  2. Latih banyak model pada Bagian 1
  3. Buat prediksi pada Bagian 2
  4. Buat prediksi pada data uji
  5. Latih model baru di Bagian 2 dengan prediksi sebagai fitur
  6. Buat prediksi pada data uji dengan model level 2
Memenangi Kompetisi Kaggle dengan Python

Contoh stacking

Train ID feature_1 ... feature_N Target
1 0.55 ... 1.37 1
2 0.12 ... -2.50 0
3 0.65 ... 3.14 0
4 0.10 ... 2.87 1
5 0.54 ... -0.10 0
Test ID feature_1 ... feature_N Target
11 0.49 ... -2.32 ?
12 0.32 ... 1.15 ?
13 0.91 ... 0.81 ?
Memenangi Kompetisi Kaggle dengan Python

Contoh stacking

Train ID feature_1 ... feature_N Target
1 0.55 ... 1.37 1
2 0.12 ... -2.50 0
3 0.65 ... 3.14 0

 

Train ID feature_1 ... feature_N Target
4 0.10 ... 2.87 1
5 0.54 ... -0.10 0
Memenangi Kompetisi Kaggle dengan Python

Contoh stacking

Train ID feature_1 ... feature_N Target
1 0.55 ... 1.37 1
2 0.12 ... -2.50 0
3 0.65 ... 3.14 0

 

Train ID feature_1 ... feature_N Target
4 0.10 ... 2.87 1
5 0.54 ... -0.10 0

Latih model A, B, C pada Bagian 1

Memenangi Kompetisi Kaggle dengan Python

Contoh stacking

Train ID feature_1 ... feature_N Target A_pred B_pred C_pred
4 0.10 ... 2.87 1 0.71 0.52 0.98
5 0.54 ... -0.10 0 0.45 0.32 0.24

 

Test ID feature_1 ... feature_N Target A_pred B_pred C_pred
11 0.49 ... -2.32 ? 0.62 0.45 0.81
12 0.32 ... 1.15 ? 0.31 0.52 0.41
13 0.91 ... 0.81 ? 0.74 0.55 0.92
Memenangi Kompetisi Kaggle dengan Python

Contoh stacking

Train ID Target A_pred B_pred C_pred
4 1 0.71 0.52 0.98
5 0 0.45 0.32 0.24

 

Test ID Target A_pred B_pred C_pred
11 ? 0.62 0.45 0.81
12 ? 0.31 0.52 0.41
13 ? 0.74 0.55 0.92
Memenangi Kompetisi Kaggle dengan Python

Contoh stacking

Train ID Target A_pred B_pred C_pred
4 1 0.71 0.52 0.98
5 0 0.45 0.32 0.24

 

Test ID Target A_pred B_pred C_pred
11 ? 0.62 0.45 0.81
12 ? 0.31 0.52 0.41
13 ? 0.74 0.55 0.92

Latih model level 2 pada Bagian 2

Memenangi Kompetisi Kaggle dengan Python

Contoh stacking

Train ID Target A_pred B_pred C_pred
4 1 0.71 0.52 0.98
5 0 0.45 0.32 0.24

 

Test ID Target A_pred B_pred C_pred Prediksi stacking
11 ? 0.62 0.45 0.81 0.73
12 ? 0.31 0.52 0.41 0.35
13 ? 0.74 0.55 0.92 0.88
Memenangi Kompetisi Kaggle dengan Python

Ayo berlatih!

Memenangi Kompetisi Kaggle dengan Python

Preparing Video For Download...