NannyML için veri hazırlama

Python ile Machine Learning İzleme

Hakim Elakhrass

Co-founder and CEO of NannyML

Verileri yükleme

dataset_name = "green_taxi_dataset.csv"
data = pd.read_csv(dataset_name)
data.head()

Görsel, veri setinin ilk beş satırının ekran görüntüsüdür.

Verileri işleme

# Veri bölümleme
data['partition'] = pd.cut(
    data['lpep_pickup_datetime'],
    bins= [pd.to_datetime('2016-12-01'),
           pd.to_datetime('2016-12-08'),
           pd.to_datetime('2016-12-16'),
           pd.to_datetime('2017-01-01')],
    right=False,
    labels= ['train', 'test', 'prod']
)

Verileri bölme

# Hedef sütun adı
target = 'tip_amount'
# Özellik sütun adları
features = ["PULocationID", "DOLocationID", "trip_distance", "VendorID", "pickup_time"]

# Eğitim kümesi
X_train = data.loc[data['partition'] == 'train', features]
y_train = data.loc[data['partition'] == 'train', target]

# Test kümesi (sonradan referans)
X_test = data.loc[data['partition'] == 'test', features]
y_test = data.loc[data['partition'] == 'test', target]

# Üretim kümesi (sonradan analiz)
X_prod = data.loc[data['partition'] == 'prod', features]
y_prod = data.loc[data['partition'] == 'prod', target]

Modeli oluşturma

lightgbm ile LGBMRegressor eğitin
Modeli test kümesinde değerlendirin
Modeli kullanıma alın

# Modeli eğitme
model = LGBMRegressor(random_state=42)
model.fit(X_train, y_train)

# Tahmin yapma
y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)

# Modeli eğitim ve testte değerlendirme
mae_train = MAE(y_train, y_pred_train)
mae_test = MAE(y_test, y_pred_test)

# Modeli üretime alma
y_pred_prod = model.predict(X_prod)

Referans ve analiz kümeleri oluşturma

Referans dönemi

Test kümesi kullanır
Gerçek değer gerekir
Temel performansı belirler

Analiz dönemi

En güncel üretim verisi
Gerçek değer isteğe bağlıdır
NannyML veri kaymasını ve performansı inceler

# Referans kümesi oluşturma
reference = X_test.copy() # Test kümesi özellikleri
reference['y_pred'] = y_pred_test # Tahminler
reference['tip_amount'] = y_test # Etiketler
reference = reference.join(
    data['lpep_pickup_datetime']) # Zaman damgası

# Analiz kümesi oluşturma
analysis = X_prod.copy() # Üretim özellikleri
analysis['y_pred'] = y_pred_prod # Tahminler
analysis = analysis.join(
    data['lpep_pickup_datetime']) # Zaman damgası

Referans kümesi örneği

Zaman damgası - gözlemin gerçekleştiği an (isteğe bağlı)
Özellikler - modele verilen özellikler
Model çıktıları
- Tahminler - modelin ürettiği skor
- Tahmin sınıf etiketleri - eşiklenmiş olasılık skorları
Hedef - gerçek değerleri içerir

Görsel, referans kümesinin ilk beş satırını gösteriyor.

Haydi pratik yapalım!

Python ile Machine Learning İzleme