Analisi del carrello in R
Christopher Bruffaerts
Statistician
Cosa c’è nel negozio?

Carrello 1: {"Bread", "Cheese"}
Carrello 2: {"Bread", "Wine" , "Cheese"}
Più carrelli
Se 100 clienti visitano il supermercato, possiamo trovare articoli che ricorrono insieme?
Esempio: Bread e Cheese

Risultato: “se questo, allora quello”
Imparare da più carrelli

Applicazioni
Crea un dataset con più carrelli!
my_baskets = data.frame(
"Basket" = c(1,1,1,1, 2,2,2, 3,3, 4,4,4, 5,5, 6,6, 7,7),
"Product" = c("Bread", "Cheese", "Cheese", "Cheese",
"Bread", "Butter", "Wine",
"Butter", "Butter",
"Butter", "Wine", "Wine",
"Butter", "Cheese",
"Cheese", "Wine",
"Wine", "Wine")
)
Uno sguardo ai carrelli
head(my_baskets)
Basket Product
1 1 Bread
2 1 Cheese
3 1 Cheese
4 1 Cheese
5 2 Bread
6 2 Butter
Domande
n_distinct(my_baskets$Product)
[1] 4
n_distinct(my_baskets$Basket)
[1] 7
df_basket =
my_baskets %>%
group_by(Basket) %>%
summarize(
n_total = n(),
n_items = n_distinct(Product))
Basket n_total n_items
<dbl> <int> <int>
1 1 4 2
2 2 3 3
Dimensione media del carrello
basket_size %>%
summarize(
avg_total_items = mean(n_total),
avg_dist_items = mean(n_items))
# A tibble: 1 x 2
avg_total_items avg_dist_items
<dbl> <dbl>
1 2.57 1.86
Distribuzione della dimensione
# Distribuzione degli articoli distinti
ggplot(df_basket, aes(n_items)) +
geom_bar()

Quale articolo stai analizzando?
Quante volte compare in tutti i carrelli?
In quanti carrelli è presente?
Esempio:

Filtrare Cheese in R
# Numero di carrelli con Cheese
my_baskets %>%
filter(Product == "Cheese") %>%
summarize(
n_tot_items = n(),
n_basket_item = n_distinct(Basket))
n_tot_items n_basket_item
1 5 3
Association rule mining: trovare associazioni frequenti tra insiemi di articoli.

Esempi di regole:
Agenda per il resto del corso:

Analisi del carrello in R