Datakwaliteitschecks en samenvattende statistieken

Monitoring Machine Learning in Python

Hakim Elakhrass

Co-founder and CEO of NannyML

Wat zijn datakwaliteitschecks en samenvattende statistieken?

De afbeelding toont de monitoringsworkflow met datakwaliteitschecks en samenvattende statistieken gemarkeerd in de stap voor geautomatiseerde root-causeanalyse.

  • Detectie van missende waarden
  • Detectie van ongeziene waarden
  • Som, gemiddelde, standaardafwijking, mediaan en rijaantallen
Monitoring Machine Learning in Python

Detectie van missende waarden

  • Minder observaties in een chunk
  • Verlies van waardevolle informatie
  • Foute interpretaties en beslissingen
# Instantiate the missing values calculator module
ms_calc = nannyml.MissingValuesCalculator(column_names=["Age"], normalize=True)

# Fit the calculator on the reference set
ms_calc.fit(reference)

# Calculate the rate of the missing values on the analysis set
ms_results = ms_calc.calculate(analysis)
ms_results.plot()
Monitoring Machine Learning in Python

Plot van missende waarden

De plot toont resultaten voor missende waarden met de parameter normalize op True en False.

Monitoring Machine Learning in Python

Detectie van ongeziene waarden

  • Categorische featurewaarden die niet voorkomen in de referentieperiode
  • Meer ongeziene waarden kan het model minder zeker maken in sommige regio’s
# Instantiate the unseen values calculator module
us_calc = nannyml.UnseenValuesCalculator(column_names=["Cabin"], normalize=False)
# Fit, calculate and plot the rate of the unseen values
us_calc.fit(reference)
us_results = us_calc.calculate(analysis)
us_results.plot()

De afbeelding toont een plot van ongeziene waarden met veranderingen in hun aantal.

Monitoring Machine Learning in Python

Samenvattende statistieken

  • Som: Handig voor financiële data om omzet of winst per periode te berekenen.
  • Gemiddelde en standaardafwijking: Nuttig voor datadrift-check en uitlegbaarheid.
  • Mediaan: Robuust tegen uitschieters; handig bij features met veel extreme waarden.
  • Rijaantallen: Check of elke chunk genoeg data heeft.
sum_calc = nannyml.SummaryStatsSumCalculator(column_names=selected_columns)
avg_calc = nannyml.SummaryStatsAvgCalculator(column_names=selected_columns)
std_calc = nannyml.SummaryStatsStdCalculator(column_names=selected_columns)
med_calc = nannyml.SummaryStatsMedianCalculator(column_names=selected_columns)
rows_calc = nannyml.SummaryStatsRowCountCalculator(column_names=selected_columns)
Monitoring Machine Learning in Python

Laten we oefenen!

Monitoring Machine Learning in Python

Preparing Video For Download...