Veri kalite kontrolleri ve özet istatistikler

Python ile Machine Learning İzleme

Hakim Elakhrass

Co-founder and CEO of NannyML

Veri kalite kontrolleri ve özet istatistikler nelerdir?

Görsel, izleme iş akışında otomatik kök neden analizindeki veri kalite kontrolleri ve özet istatistikler bölümünü vurgular.

  • Eksik değer tespiti
  • Görülmemiş değer tespiti
  • Toplam, ortalama, standart sapma, medyan ve satır sayıları
Python ile Machine Learning İzleme

Eksik değer tespiti

  • Bir parçacıkta azalan gözlemler
  • Değerli bilgi kaybı
  • Hatalı yorumlar ve kararlar
# Eksik değer hesaplayıcı modülünü başlatın
ms_calc = nannyml.MissingValuesCalculator(column_names=["Age"], normalize=True)

# Hesaplayıcıyı referans sette eğitin
ms_calc.fit(reference)

# Analiz sette eksik değer oranını hesaplayın
ms_results = ms_calc.calculate(analysis)
ms_results.plot()
Python ile Machine Learning İzleme

Eksik değer grafiği

Grafik, normalize parametresi True ve False iken eksik değer sonuçlarını gösterir.

Python ile Machine Learning İzleme

Görülmemiş değer tespiti

  • Referans dönemde yer almayan kategorik özellik değerleri
  • Görülmemiş değerlerde artış, modelin bazı bölgelerde güvenini azaltabilir
# Görülmemiş değer hesaplayıcı modülünü başlatın
us_calc = nannyml.UnseenValuesCalculator(column_names=["Cabin"], normalize=False)
# Görülmemiş değer oranını eğitin, hesaplayın ve görselleştirin
us_calc.fit(reference)
us_results = us_calc.calculate(analysis)
us_results.plot()

Görsel, görülmemiş değerlerin sayısındaki değişimleri gösteren grafiği sunar.

Python ile Machine Learning İzleme

Özet istatistikler

  • Toplam: Belirli bir dönem için gelir veya kâr hesaplamakta faydalıdır.
  • Ortalama ve Standart Sapma: Veri kayması kontrolü ve açıklanabilirlik için yararlı.
  • Medyan: Aykırı değerlere dayanıklıdır; çok uç değeri olan özellikler için uygundur.
  • Satır Sayısı: Her parçacıkta yeterli veri olup olmadığını belirler.
sum_calc = nannyml.SummaryStatsSumCalculator(column_names=selected_columns)
avg_calc = nannyml.SummaryStatsAvgCalculator(column_names=selected_columns)
std_calc = nannyml.SummaryStatsStdCalculator(column_names=selected_columns)
med_calc = nannyml.SummaryStatsMedianCalculator(column_names=selected_columns)
rows_calc = nannyml.SummaryStatsRowCountCalculator(column_names=selected_columns)
Python ile Machine Learning İzleme

Hadi pratik yapalım!

Python ile Machine Learning İzleme

Preparing Video For Download...