Mentransformasikan variabel

Pengantar Regresi di R

Richie Cotton

Data Evangelist at DataCamp

Dataset perch

library(dplyr)

perch <- fish %>%
  filter(species == "Perch")
species mass_g length_cm
Perch 5.9 7.5
Perch 32.0 12.5
Perch 40.0 13.8
Perch 51.5 15.0
Perch 70.0 15.7
... ... ...
Pengantar Regresi di R

Bukan hubungan linear

ggplot(perch, aes(length_cm, mass_g)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE)

Plot sebar massa perch vs panjangnya, dengan garis tren. Perch menjadi lebih berat lebih cepat daripada linear saat makin panjang, menghasilkan kurva naik.

Pengantar Regresi di R

Bream vs perch

Beberapa ikan bream sedang berenang. Bream cukup pipih.

Beberapa ikan perch sedang berenang. Perch cukup bulat.

Pengantar Regresi di R

Plot massa vs panjang kubik

ggplot(perch, aes(length_cm ^ 3, mass_g)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE)

Plot sebar massa perch vs panjang berpangkat tiga, dengan garis tren. Setelah transformasi ini, titik-titik sebagian besar dekat garis tren.

Pengantar Regresi di R

Memodelkan massa vs panjang kubik

mdl_perch <- lm(mass_g ~ I(length_cm ^ 3), data = perch)
Call:
lm(formula = mass_g ~ I(length_cm^3), data = perch)

Coefficients:
   (Intercept)  I(length_cm^3)  
       -0.1175          0.0168
Pengantar Regresi di R

Memprediksi massa vs panjang kubik

explanatory_data <- tibble(
  length_cm = seq(10, 40, 5)
)
prediction_data <- explanatory_data %>%
  mutate(
    mass_g = predict(mdl_perch, explanatory_data)
  )
# A tibble: 7 x 2
  length_cm mass_g
      <dbl>  <dbl>
1        10   16.7
2        15   56.6
3        20  134. 
4        25  262. 
5        30  453. 
6        35  720. 
7        40 1075.
Pengantar Regresi di R

Plot massa vs panjang kubik

ggplot(perch, aes(length_cm ^ 3, mass_g)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE) +
  geom_point(data = prediction_data, color = "blue")

Plot sebar massa perch vs panjang berpangkat tiga, dengan garis tren, diberi anotasi titik dari fungsi predict(). Titik-titik tepat mengikuti garis tren.

ggplot(perch, aes(length_cm, mass_g)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE) +
  geom_point(data = prediction_data, color = "blue")

Plot sebar massa perch vs panjangnya, dengan garis tren, diberi anotasi titik dari fungsi predict(). Titik-titik tidak mengikuti garis tren namun mengikuti kurva data.

Pengantar Regresi di R

Dataset iklan Facebook

Cara kerja iklan

  1. Membayar Facebook untuk menayangkan iklan.
  2. Orang melihat iklan ("impressions").
  3. Sebagian yang melihat, mengkliknya.

 

  • 936 baris
  • Setiap baris mewakili 1 iklan
spent_usd n_impressions n_clicks
1.43 7350 1
1.82 17861 2
1.25 4259 1
1.29 4133 1
4.77 15615 3
... ... ...
Pengantar Regresi di R

Plot padat/sempit

ggplot(
  ad_conversion, 
  aes(spent_usd, n_impressions)
) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE)

Plot sebar jumlah impression vs belanja iklan, dengan garis tren. Sebagian besar titik menumpuk di kiri bawah plot.

Pengantar Regresi di R

Akar kuadrat vs akar kuadrat

ggplot(
  ad_conversion, 
  aes(sqrt(spent_usd), sqrt(n_impressions))
) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE)

Plot sebar akar kuadrat jumlah impression vs akar kuadrat belanja iklan, dengan garis tren. Kini titik-titik lebih merata di seluruh plot.

Pengantar Regresi di R

Pemodelan dan prediksi

mdl_ad <- lm(
  sqrt(n_impressions) ~ sqrt(spent_usd), 
  data = ad_conversion
)
explanatory_data <- tibble(
  spent_usd = seq(0, 600, 100)
)
prediction_data <- explanatory_data %>% 
  mutate(
    sqrt_n_impressions = predict(
      mdl_ad, explanatory_data
    ),
    n_impressions = sqrt_n_impressions ^ 2
  )
# A tibble: 7 x 3
  spent_usd sqrt_n_impressions n_impressions
      <dbl>              <dbl>         <dbl>
1         0               15.3          235.
2       100              598.        357289.
3       200              839.        703890.
4       300             1024.       1048771.
5       400             1180.       1392762.
6       500             1318.       1736184.
7       600             1442.       2079202.
Pengantar Regresi di R

Ayo berlatih!

Pengantar Regresi di R

Preparing Video For Download...