Pemodelan dengan tidymodels di R
David Svancer
Data Scientist

Tentukan peran kolom
Tentukan tipe variabel
Dilakukan dengan fungsi recipe()

Tambahkan langkah praproses yang diperlukan
Setiap langkah ditambahkan dengan fungsi step_*() unik

Objek recipe dilatih pada sumber data, biasanya data latih
Resep dilatih dengan fungsi prep()

Terapkan semua transformasi praproses yang sudah dilatih
Resep diterapkan dengan fungsi bake()

Transformasi log pada total_time di data lead scoring
leads_training
# A tibble: 996 x 7
purchased total_visits total_time pages_per_visit total_clicks lead_source us_location
<fct> <dbl> <dbl> <dbl> <dbl> <fct> <fct>
1 yes 7 1148 7 59 direct_traffic west
2 no 5 228 2.5 25 email southeast
3 no 7 481 2.33 21 organic_search west
4 no 4 177 4 37 direct_traffic west
5 no 2 1273 2 26 email midwest
# ... with 991 more rows
Fungsi recipe()
data
Teruskan objek recipe ke step_log() untuk menambah langkah transformasi logaritma
total_time, dan tentukan basis logaritmaleads_log_rec <- recipe(purchased ~ ., data = leads_training) %>%step_log(total_time, base = 10)
leads_log_rec
Data Recipe
Inputs:
role #variables
outcome 1
predictor 6
Operations:
Log transformation on total_time
Memberikan objek recipe ke fungsi summary()
typeroleleads_log_rec %>%
summary()
# A tibble: 7 x 4
variable type role source
<chr> <chr> <chr> <chr>
1 total_visits numeric predictor original
2 total_time numeric predictor original
3 pages_per_visit numeric predictor original
4 total_clicks numeric predictor original
5 lead_source nominal predictor original
6 us_location nominal predictor original
7 purchased nominal outcome original
Fungsi prep()
recipe sebagai argumen pertamatraining
Mencetak objek recipe yang telah dilatih
[trained]leads_log_rec_prep <- leads_log_rec %>%
prep(training = leads_training)
leads_log_rec_prep
Data Recipe
Inputs:
role #variables
outcome 1
predictor 6
Training data contained 996 data points and
no missing data.
Operations:
Log transformation on total_time [trained]
Fungsi bake()
recipe terlatihnew_datarecipe terlatihleads_training digunakan untuk melatih recipeprep()NULL ke new_data untuk mengekstrakleads_log_rec_prep %>%
bake(new_data = NULL)
# A tibble: 996 x 7
total_visits total_time ... us_location purchased
<dbl> <dbl> ... <fct> <fct>
1 7 3.06 ... west yes
2 5 2.36 ... southeast no
3 7 2.68 ... west no
4 4 2.25 ... west no
5 2 3.10 ... midwest no
# ... with 991 more rows
Mentransformasi dataset yang tidak dipakai saat pelatihan recipe
new_datarecipe terlatih akan menerapkan semua langkah ke data baruleads_log_rec_prep %>%
bake(new_data = leads_test)
# A tibble: 332 x 7
total_visits total_time ... us_location purchased
<dbl> <dbl> ... <fct> <fct>
1 8 2 ... west no
2 4 3.13 ... northeast yes
3 3 2.25 ... west no
4 2 1.20 ... midwest no
5 9 3.01 ... west yes
# ... with 327 more rows
Pemodelan dengan tidymodels di R