NannyML için veri hazırlama

Python ile Machine Learning İzleme

Hakim Elakhrass

Co-founder and CEO of NannyML

Verileri yükleme

dataset_name = "green_taxi_dataset.csv"
data = pd.read_csv(dataset_name)
data.head()

Görsel, veri setinin ilk beş satırının ekran görüntüsüdür.

Python ile Machine Learning İzleme

Verileri işleme

# Veri bölümleme
data['partition'] = pd.cut(
    data['lpep_pickup_datetime'],
    bins= [pd.to_datetime('2016-12-01'),
           pd.to_datetime('2016-12-08'),
           pd.to_datetime('2016-12-16'),
           pd.to_datetime('2017-01-01')],
    right=False,
    labels= ['train', 'test', 'prod']
)
Python ile Machine Learning İzleme

Verileri bölme

# Hedef sütun adı
target = 'tip_amount'
# Özellik sütun adları
features = ["PULocationID", "DOLocationID", "trip_distance", "VendorID", "pickup_time"]
# Eğitim kümesi
X_train = data.loc[data['partition'] == 'train', features]
y_train = data.loc[data['partition'] == 'train', target]

# Test kümesi (sonradan referans)
X_test = data.loc[data['partition'] == 'test', features]
y_test = data.loc[data['partition'] == 'test', target]

# Üretim kümesi (sonradan analiz)
X_prod = data.loc[data['partition'] == 'prod', features]
y_prod = data.loc[data['partition'] == 'prod', target]
Python ile Machine Learning İzleme

Modeli oluşturma

  • lightgbm ile LGBMRegressor eğitin
  • Modeli test kümesinde değerlendirin
  • Modeli kullanıma alın
# Modeli eğitme
model = LGBMRegressor(random_state=42)
model.fit(X_train, y_train)

# Tahmin yapma
y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)

# Modeli eğitim ve testte değerlendirme
mae_train = MAE(y_train, y_pred_train)
mae_test = MAE(y_test, y_pred_test)

# Modeli üretime alma
y_pred_prod = model.predict(X_prod)
Python ile Machine Learning İzleme

Referans ve analiz kümeleri oluşturma

Referans dönemi

  • Test kümesi kullanır

  • Gerçek değer gerekir

  • Temel performansı belirler

Analiz dönemi

  • En güncel üretim verisi

  • Gerçek değer isteğe bağlıdır

  • NannyML veri kaymasını ve performansı inceler

# Referans kümesi oluşturma
reference = X_test.copy() # Test kümesi özellikleri
reference['y_pred'] = y_pred_test # Tahminler
reference['tip_amount'] = y_test # Etiketler
reference = reference.join(
    data['lpep_pickup_datetime']) # Zaman damgası
# Analiz kümesi oluşturma
analysis = X_prod.copy() # Üretim özellikleri
analysis['y_pred'] = y_pred_prod # Tahminler
analysis = analysis.join(
    data['lpep_pickup_datetime']) # Zaman damgası
Python ile Machine Learning İzleme

Referans kümesi örneği

  • Zaman damgası - gözlemin gerçekleştiği an (isteğe bağlı)
  • Özellikler - modele verilen özellikler
  • Model çıktıları
    • Tahminler - modelin ürettiği skor
    • Tahmin sınıf etiketleri - eşiklenmiş olasılık skorları
  • Hedef - gerçek değerleri içerir

Görsel, referans kümesinin ilk beş satırını gösteriyor.

Python ile Machine Learning İzleme

Haydi pratik yapalım!

Python ile Machine Learning İzleme

Preparing Video For Download...