Betrouwbaarheid en lift

Market Basket Analysis in Python

Isaiah Hull

Visiting Associate Professor of Finance, BI Norwegian Business School

Wanneer support misleidt

TID Transactie
1 Coffee, Milk
2 Bread, Milk, Orange
3 Bread, Milk
4 Bread, Milk, Sugar
5 Bread, Jam, Milk
... ...

 

  1. Milk en bread vaak samen gekocht.
    • Support: {Milk} $\rightarrow$ {Bread}
  2. Regel is niet nuttig voor marketing.
    • Milk en bread zijn beide populair.
Market Basket Analysis in Python

De confidence-metriek

  1. Kun je verbeteren op support met extra metriek.
  2. Confidence toevoegen geeft een vollediger beeld.

 

$$\frac{Support(X \& Y)}{Support(X)}$$

Market Basket Analysis in Python

De confidence-metriek interpreteren

Deze afbeelding toont een lijst met supermarkttransacties. Eén transactie bevat jam en brood.

$$Support(Milk\&Coffee) = 0.20$$

Deze afbeelding toont een lijst met supermarkttransacties. Eén transactie bevat jam en brood.

$$Support(Milk) = 1.00$$

Market Basket Analysis in Python

De confidence-metriek interpreteren

  $$\frac{Support(Milk\&Coffee)}{Support(Milk)} = \frac{0.20}{1.00} = 0.20$$

  $$\frac{Support(Milk\&Coffee)}{Support(Milk)} = \frac{0.20}{0.80} = 0.25$$

  $$\frac{Support(Milk\&Coffee)}{Support(Milk)} = \frac{0.20}{0.20} = 1.00$$

Market Basket Analysis in Python

De lift-metriek

 

  • Lift is een extra maatstaf voor de relatie tussen items.
    • Teller: Aandeel transacties met X en Y.
    • Noemer: Verwacht aandeel als X en Y willekeurig en onafhankelijk zijn.

 

$$\frac{Support(X \& Y)}{Support(X) Support(Y)}$$

Market Basket Analysis in Python

Data voorbereiden

from mlxtend.preprocessing import TransactionEncoder
import pandas as pd

# Split library strings into lists
libraries = data['Library'].apply(lambda t: t.split(','))

# Convert to list of lists
libraries = list(libraries)

# One-hot encode books
books = TransactionEncoder().fit(libraries).transform(libraries)

# Convert one-hot encoded data to DataFrame
books = pd.DataFrame(books, columns = encoder.columns_)
Market Basket Analysis in Python

Betrouwbaarheid en lift berekenen

# Print first five items
print(books.head())
       Hunger           Gatsby
0      False            True
1      False            True
2      False            False
3      False            True
4      False            True

Dataset: GoodBooks-10K.

Market Basket Analysis in Python

Betrouwbaarheid en lift berekenen

# Computing support.
supportHG = np.logical_and(books['Hunger'],books['Gatsby']).mean()
supportH = books['Hunger'].mean()
supportG = books['Gatsby'].mean()
# Compute and print confidence and lift.
confidence = supportHG / supportH
lift = supportHG / (supportH * supportG)
# Print results.
print(supportG, confidence, lift)
(0.30, 0.16, 0.53)
Market Basket Analysis in Python

Laten we oefenen!

Market Basket Analysis in Python

Preparing Video For Download...