Het Apriori-algoritme

Market Basket Analysis in Python

Isaiah Hull

Visiting Associate Professor of Finance, BI Norwegian Business School

Itemsets tellen

$${n \choose k} = \frac{n!}{(n-k)!k!}$$

Aantal items Grootte itemset Combinaties
3461 0 1
3461 1 3461
3461 2 5,987,530
3461 3 6,903,622,090
3461 4 5,968,181,296,805
Market Basket Analysis in Python

Itemsets tellen

$$\sum_{k=0}^{n}{n \choose k} = 2^{n}$$

  • $n = 3461 \rightarrow 2^{3461}$
  • $2^{3461}>>10^{82}$
  • Aantal atomen in het heelal: $10^{82}$.
Market Basket Analysis in Python

Het aantal itemsets verminderen

  • Alle itemsets overwegen is onmogelijk.
    • Zelfs opsommen kan niet.
  • Hoe verwijder je een itemset zonder te evalueren?
    • Je kunt een maximale $k$ instellen.
  • Het Apriori-algoritme biedt een alternatief.
    • Je hoeft niet alle itemsets op te sommen.
    • Zinnige snoeiregel.
Market Basket Analysis in Python

Het Apriori-principe

  • Apriori-principe.
    • Subsets van frequente sets zijn frequent.
    • Behoud sets die frequent zijn.
    • Snoei sets die niet frequent zijn.
  • Kaarsen = Niet-frequent
    • -> {Kaarsen, Borden} = Niet-frequent
  • {Kaarsen, Borden} = Niet-frequent
    • -> {Kaarsen, Borden, Dozen} = Niet-frequent
  • {Kaarsen, Borden, Dozen} = Niet-frequent
    • -> {Kaarsen, Borden, Dozen, Tassen} = Niet-frequent
Market Basket Analysis in Python

Apriori implementatie

# Import Apriori algorithm
from mlxtend.frequent_patterns import apriori

# Load one-hot encoded novelty gifts data
onehot = pd.read_csv('datasets/online_retail_onehot.csv')

# Print header.
print(onehot.head())
    50'S CHRISTMAS GIFT BAG LARGE ...  ZINC WILLIE WINKIE  CANDLE STICK  \
0                           False ...              False   
1                           False ...              False   
2                           False ...              False   
3                           False ...              False   
4                           False ...              False
Market Basket Analysis in Python

Apriori implementatie

# Compute frequent itemsets
frequent_itemsets = apriori(onehot, min_support = 0.0005, 
                            max_len = 4, use_colnames = True)

# Print number of itemsets
print(len(frequent_itemsets))
3652
Market Basket Analysis in Python

Apriori implementatie

# Print itemsets
print(frequent_itemsets.head())
      support                          itemsets
0     0.000752  ( 50'S CHRISTMAS GIFT BAG LARGE)
1     0.001504              ( DOLLY GIRL BEAKER)
...
1500  0.000752  (PING MICROWAVE APRON, FOOD CONTAINER SET 3 LO...
1501  0.000752  (WOOD 2 DRAWER CABINET WHITE FINISH, FOOD CONT...
...
Market Basket Analysis in Python

Laten we oefenen!

Market Basket Analysis in Python

Preparing Video For Download...