Potatura base dei risultati Apriori

Analisi del carrello in Python

Isaiah Hull

Visiting Associate Professor of Finance, BI Norwegian Business School

Apriori e regole d’associazione

  • Apriori pota i set di item.
    • Applica una soglia minima di supporto.
    • Una variante può potare per numero di item.
    • Non dice nulla sulle regole d’associazione.
  • Regole d’associazione.
    • Molte più regole che set di item.
    • {Borse, Scatole}: Borse -> Scatole OPPURE Scatole -> Borse.
Analisi del carrello in Python

Come calcolare le regole d’associazione

  • Calcolare regole dai risultati di Apriori.
    • Difficile da enumerare per n e k grandi.
    • Può annullare la potatura dei set di item fatta da Apriori.
  • Ridurre il numero di regole d’associazione.
    • Il modulo mlxtend offre modi per potare le regole.
    • association_rules() usa item frequenti, metrica e soglia.
Analisi del carrello in Python

Come calcolare le regole d’associazione

# Import Apriori algorithm
from mlxtend.frequent_patterns import apriori, association_rules

# Load one-hot encoded novelty gifts data
onehot = pd.read_csv('datasets/online_retail_onehot.csv')

# Apply Apriori algorithm
frequent_itemsets = apriori(onehot, 
                            use_colnames=True, 
                            min_support=0.0001)
# Compute association rules
rules = association_rules(frequent_itemsets,
                          metric = "support", 
                          min_threshold = 0.0)
Analisi del carrello in Python

L’importanza della potatura

# Print the rules.
print(rules)
                               antecedents  ... conviction
0      (CARDHOLDER GINGHAM CHRISTMAS TREE)  ...      inf
...
79505      (SET OF 3 HEART COOKIE CUTTERS)  ... 1.998496
# Print the frequent itemsets.
print(frequent_itemsets)
       support                                           itemsets
0     0.000752                   ( 50'S CHRISTMAS GIFT BAG LARGE)
...
4707  0.000752                  (PIZZA PLATE IN BOX, CHRISTMAS ...
Analisi del carrello in Python

L’importanza della potatura

# Compute association rules
rules = association_rules(frequent_itemsets,
                          metric = "support", 
                          min_threshold = 0.001)

# Print the rules.
print(rules)
                   antecedents      conviction  
0  (BIRTHDAY CARD, RETRO SPOT)  ...  2.977444 
1    (JUMBO BAG RED RETROSPOT)  ...  1.247180
Analisi del carrello in Python

Esplorare l’insieme di regole

print(rules.columns)
Index(['antecedents', 'consequents', 'antecedent support',
       'consequent support', 'support', 'confidence', 'lift', 'leverage',
       'conviction'],
      dtype='object')
print(rules[['antecedents','consequents']])
                   antecedents                  consequents
0    (JUMBO BAG RED RETROSPOT)  (BIRTHDAY CARD, RETRO SPOT)
1  (BIRTHDAY CARD, RETRO SPOT)    (JUMBO BAG RED RETROSPOT)
Analisi del carrello in Python

Potare con altre metriche

# Compute association rules
rules = association_rules(frequent_itemsets,
                          metric = "antecedent support", 
                          min_threshold = 0.002)

# Print the number of rules.
print(len(rules))
3899
Analisi del carrello in Python

Passiamo alla pratica!

Analisi del carrello in Python

Preparing Video For Download...