Datakwaliteitschecks en samenvattende statistieken

Monitoring Machine Learning in Python

Hakim Elakhrass

Co-founder and CEO of NannyML

Wat zijn datakwaliteitschecks en samenvattende statistieken?

De afbeelding toont de monitoringsworkflow met datakwaliteitschecks en samenvattende statistieken gemarkeerd in de stap voor geautomatiseerde root-causeanalyse.

Detectie van missende waarden
Detectie van ongeziene waarden
Som, gemiddelde, standaardafwijking, mediaan en rijaantallen

Detectie van missende waarden

Minder observaties in een chunk
Verlies van waardevolle informatie
Foute interpretaties en beslissingen

# Instantiate the missing values calculator module
ms_calc = nannyml.MissingValuesCalculator(column_names=["Age"], normalize=True)

# Fit the calculator on the reference set
ms_calc.fit(reference)

# Calculate the rate of the missing values on the analysis set
ms_results = ms_calc.calculate(analysis)
ms_results.plot()

Plot van missende waarden

De plot toont resultaten voor missende waarden met de parameter normalize op True en False.

Detectie van ongeziene waarden

Categorische featurewaarden die niet voorkomen in de referentieperiode
Meer ongeziene waarden kan het model minder zeker maken in sommige regio’s

# Instantiate the unseen values calculator module
us_calc = nannyml.UnseenValuesCalculator(column_names=["Cabin"], normalize=False)

# Fit, calculate and plot the rate of the unseen values
us_calc.fit(reference)
us_results = us_calc.calculate(analysis)
us_results.plot()

De afbeelding toont een plot van ongeziene waarden met veranderingen in hun aantal.

Samenvattende statistieken

Som: Handig voor financiële data om omzet of winst per periode te berekenen.
Gemiddelde en standaardafwijking: Nuttig voor datadrift-check en uitlegbaarheid.
Mediaan: Robuust tegen uitschieters; handig bij features met veel extreme waarden.
Rijaantallen: Check of elke chunk genoeg data heeft.

sum_calc = nannyml.SummaryStatsSumCalculator(column_names=selected_columns)
avg_calc = nannyml.SummaryStatsAvgCalculator(column_names=selected_columns)
std_calc = nannyml.SummaryStatsStdCalculator(column_names=selected_columns)
med_calc = nannyml.SummaryStatsMedianCalculator(column_names=selected_columns)
rows_calc = nannyml.SummaryStatsRowCountCalculator(column_names=selected_columns)

Laten we oefenen!

Monitoring Machine Learning in Python