L'algoritmo Apriori

Analisi del carrello in Python

Isaiah Hull

Visiting Associate Professor of Finance, BI Norwegian Business School

Conteggio degli itemset

$${n \choose k} = \frac{n!}{(n-k)!k!}$$

Conteggio articoli Dimensione itemset Combinazioni
3461 0 1
3461 1 3461
3461 2 5,987,530
3461 3 6,903,622,090
3461 4 5,968,181,296,805
Analisi del carrello in Python

Conteggio degli itemset

$$\sum_{k=0}^{n}{n \choose k} = 2^{n}$$

  • $n = 3461 \rightarrow 2^{3461}$
  • $2^{3461}>>10^{82}$
  • Numero di atomi nell'universo: $10^{82}$.
Analisi del carrello in Python

Ridurre il numero di itemset

  • Impossibile considerare tutti gli itemset.
    • Non è nemmeno possibile elencarli.
  • Come scartare un itemset senza valutarlo?
    • Si può fissare un valore massimo di $k$.
  • Apriori offre un'alternativa.
    • Non richiede di enumerare tutti gli itemset.
    • Regola sensata per potare.
Analisi del carrello in Python

Il principio di Apriori

  • Principio di Apriori.
    • I sottoinsiemi di set frequenti sono frequenti.
    • Tieni i set noti come frequenti.
    • Elimina i set non noti come frequenti.
  • Candele = Raro
    • -> {Candele, Cartelli} = Raro
  • {Candele, Cartelli} = Raro
    • -> {Candele, Cartelli, Scatole} = Raro
  • {Candele, Cartelli, Scatole} = Raro
    • -> {Candele, Cartelli, Scatole, Borse} = Raro
Analisi del carrello in Python

Implementazione di Apriori

# Import Apriori algorithm
from mlxtend.frequent_patterns import apriori

# Load one-hot encoded novelty gifts data
onehot = pd.read_csv('datasets/online_retail_onehot.csv')

# Print header.
print(onehot.head())
    50'S CHRISTMAS GIFT BAG LARGE ...  ZINC WILLIE WINKIE  CANDLE STICK  \
0                           False ...              False   
1                           False ...              False   
2                           False ...              False   
3                           False ...              False   
4                           False ...              False
Analisi del carrello in Python

Implementazione di Apriori

# Compute frequent itemsets
frequent_itemsets = apriori(onehot, min_support = 0.0005, 
                            max_len = 4, use_colnames = True)

# Print number of itemsets
print(len(frequent_itemsets))
3652
Analisi del carrello in Python

Implementazione di Apriori

# Print itemsets
print(frequent_itemsets.head())
      support                          itemsets
0     0.000752  ( 50'S CHRISTMAS GIFT BAG LARGE)
1     0.001504              ( DOLLY GIRL BEAKER)
...
1500  0.000752  (PING MICROWAVE APRON, FOOD CONTAINER SET 3 LO...
1501  0.000752  (WOOD 2 DRAWER CABINET WHITE FINISH, FOOD CONT...
...
Analisi del carrello in Python

Passiamo alla pratica !

Analisi del carrello in Python

Preparing Video For Download...