Algoritme Apriori

Analisis Market Basket dengan Python

Isaiah Hull

Visiting Associate Professor of Finance, BI Norwegian Business School

Menghitung itemset

$${n \choose k} = \frac{n!}{(n-k)!k!}$$

Jumlah Item Ukuran Itemset Kombinasi
3461 0 1
3461 1 3461
3461 2 5,987,530
3461 3 6,903,622,090
3461 4 5,968,181,296,805
Analisis Market Basket dengan Python

Menghitung itemset

$$\sum_{k=0}^{n}{n \choose k} = 2^{n}$$

  • $n = 3461 \rightarrow 2^{3461}$
  • $2^{3461}>>10^{82}$
  • Jumlah atom di alam semesta: $10^{82}$.
Analisis Market Basket dengan Python

Mengurangi jumlah itemset

  • Tidak mungkin menimbang semua itemset.
    • Bahkan tidak bisa menguraikannya satu per satu.
  • Bagaimana membuang itemset tanpa mengevaluasinya?
    • Dapat menetapkan nilai $k$ maksimum.
  • Algoritme Apriori menawarkan alternatif.
    • Tidak perlu enumerasi semua itemset.
    • Aturan pemangkasan yang masuk akal.
Analisis Market Basket dengan Python

Prinsip Apriori

  • Prinsip Apriori.
    • Subhimpunan dari himpunan sering juga sering.
    • Pertahankan himpunan yang diketahui sering.
    • Pangkas himpunan yang tidak diketahui sering.
  • Lilin = Jarang
    • -> {Lilin, Tanda} = Jarang
  • {Lilin, Tanda} = Jarang
    • -> {Lilin, Tanda, Kotak} = Jarang
  • {Lilin, Tanda, Kotak} = Jarang
    • -> {Lilin, Tanda, Kotak, Tas} = Jarang
Analisis Market Basket dengan Python

Implementasi Apriori

# Import Apriori algorithm
from mlxtend.frequent_patterns import apriori

# Load one-hot encoded novelty gifts data
onehot = pd.read_csv('datasets/online_retail_onehot.csv')

# Print header.
print(onehot.head())
    50'S CHRISTMAS GIFT BAG LARGE ...  ZINC WILLIE WINKIE  CANDLE STICK  \
0                           False ...              False   
1                           False ...              False   
2                           False ...              False   
3                           False ...              False   
4                           False ...              False
Analisis Market Basket dengan Python

Implementasi Apriori

# Compute frequent itemsets
frequent_itemsets = apriori(onehot, min_support = 0.0005, 
                            max_len = 4, use_colnames = True)

# Print number of itemsets
print(len(frequent_itemsets))
3652
Analisis Market Basket dengan Python

Implementasi Apriori

# Print itemsets
print(frequent_itemsets.head())
      support                          itemsets
0     0.000752  ( 50'S CHRISTMAS GIFT BAG LARGE)
1     0.001504              ( DOLLY GIRL BEAKER)
...
1500  0.000752  (PING MICROWAVE APRON, FOOD CONTAINER SET 3 LO...
1501  0.000752  (WOOD 2 DRAWER CABINET WHITE FINISH, FOOD CONT...
...
Analisis Market Basket dengan Python

Ayo berlatih!

Analisis Market Basket dengan Python

Preparing Video For Download...