Pemeriksaan kualitas data dan statistik ringkas

Pemantauan Machine Learning dengan Python

Hakim Elakhrass

Co-founder and CEO of NannyML

Apa itu pemeriksaan kualitas data dan statistik ringkas?

Gambar menunjukkan alur pemantauan dengan bagian pemeriksaan kualitas data dan statistik ringkas disorot pada langkah analisis akar penyebab otomatis.

  • Deteksi nilai hilang
  • Deteksi nilai tak terlihat
  • Penjumlahan, rata-rata, simpangan baku, median, dan jumlah baris
Pemantauan Machine Learning dengan Python

Deteksi nilai hilang

  • Pengamatan berkurang dalam suatu chunk
  • Kehilangan informasi berharga
  • Interpretasi dan keputusan keliru
# Instantiate the missing values calculator module
ms_calc = nannyml.MissingValuesCalculator(column_names=["Age"], normalize=True)

# Fit the calculator on the reference set
ms_calc.fit(reference)

# Calculate the rate of the missing values on the analysis set
ms_results = ms_calc.calculate(analysis)
ms_results.plot()
Pemantauan Machine Learning dengan Python

Plot nilai hilang

Plot menampilkan hasil nilai hilang untuk parameter normalize disetel ke True dan False.

Pemantauan Machine Learning dengan Python

Deteksi nilai tak terlihat

  • Nilai fitur kategorikal yang tidak ada di periode referensi
  • Kenaikan nilai tak terlihat dapat menurunkan keyakinan model pada area tertentu
# Instantiate the unseen values calculator module
us_calc = nannyml.UnseenValuesCalculator(column_names=["Cabin"], normalize=False)
# Fit, calculate and plot the rate of the unseen values
us_calc.fit(reference)
us_results = us_calc.calculate(analysis)
us_results.plot()

Gambar menunjukkan plot nilai tak terlihat dengan perubahan jumlah nilai tak terlihat.

Pemantauan Machine Learning dengan Python

Statistik ringkas

  • Penjumlahan: Berguna untuk data finansial menghitung pendapatan atau laba per periode.
  • Rata-rata dan Simpangan Baku: Membantu cek drift dan penjelasan model.
  • Median: Tahan terhadap pencilan, cocok untuk fitur dengan banyak nilai ekstrem.
  • Jumlah Baris: Pastikan tiap chunk cukup data.
sum_calc = nannyml.SummaryStatsSumCalculator(column_names=selected_columns)
avg_calc = nannyml.SummaryStatsAvgCalculator(column_names=selected_columns)
std_calc = nannyml.SummaryStatsStdCalculator(column_names=selected_columns)
med_calc = nannyml.SummaryStatsMedianCalculator(column_names=selected_columns)
rows_calc = nannyml.SummaryStatsRowCountCalculator(column_names=selected_columns)
Pemantauan Machine Learning dengan Python

Ayo berlatih!

Pemantauan Machine Learning dengan Python

Preparing Video For Download...