Market Basket-analyse in R
Christopher Bruffaerts
Statistician
Wat is er in de winkel?

Mandje 1: {"Bread", "Cheese"}
Mandje 2: {"Bread", "Wine" , "Cheese"}
Meerdere mandjes
Als 100 klanten de supermarkt bezoeken, kunnen we dan items vinden die vaak samen voorkomen?
Voorbeeld: Bread en Cheese

Resultaat: “als dit, dan dat”
Leren van meerdere mandjes

Toepassingen
Maak een dataset met meerdere mandjes!
my_baskets = data.frame(
"Basket" = c(1,1,1,1, 2,2,2, 3,3, 4,4,4, 5,5, 6,6, 7,7),
"Product" = c("Bread", "Cheese", "Cheese", "Cheese",
"Bread", "Butter", "Wine",
"Butter", "Butter",
"Butter", "Wine", "Wine",
"Butter", "Cheese",
"Cheese", "Wine",
"Wine", "Wine")
)
Een kijkje in mijn mandjes
head(my_baskets)
Basket Product
1 1 Bread
2 1 Cheese
3 1 Cheese
4 1 Cheese
5 2 Bread
6 2 Butter
Vragen
n_distinct(my_baskets$Product)
[1] 4
n_distinct(my_baskets$Basket)
[1] 7
df_basket =
my_baskets %>%
group_by(Basket) %>%
summarize(
n_total = n(),
n_items = n_distinct(Product))
Basket n_total n_items
<dbl> <int> <int>
1 1 4 2
2 2 3 3
Gemiddelde mandgrootte
basket_size %>%
summarize(
avg_total_items = mean(n_total),
avg_dist_items = mean(n_items))
# A tibble: 1 x 2
avg_total_items avg_dist_items
<dbl> <dbl>
1 2.57 1.86
Verdeling van mandgrootte
# Verdeling van unieke items
ggplot(df_basket, aes(n_items)) +
geom_bar()

Welk item bekijk je?
Hoe vaak komt een item voor in alle mandjes?
In hoeveel mandjes zit dat item?
Voorbeeld:

Filteren op Cheese in R
# Aantal mandjes met Cheese
my_baskets %>%
filter(Product == "Cheese") %>%
summarize(
n_tot_items = n(),
n_basket_item = n_distinct(Basket))
n_tot_items n_basket_item
1 5 3
Association rule mining: het vinden van vaak samen voorkomende verbanden tussen items.

Voorbeeld van regel-extractie:
Agenda voor de rest van de cursus:

Market Basket-analyse in R