Basismodel

Een Kaggle-competitie winnen met Python

Yauhen Babakhin

Kaggle Grandmaster

Modelleerfase

 

onderdelen van de modelleerfase

Een Kaggle-competitie winnen met Python

Modelleerfase

 

basismodel in de modelleerfase

Een Kaggle-competitie winnen met Python

Validatie voor NYC-taxi

# Read data
taxi_train = pd.read_csv('taxi_train.csv')
taxi_test = pd.read_csv('taxi_test.csv')
from sklearn.model_selection import train_test_split

# Create local validation
validation_train, validation_test = train_test_split(taxi_train,
                                                     test_size=0.3,
                                                     random_state=123)
Een Kaggle-competitie winnen met Python

Basismodel I

import numpy as np
# Assign the mean fare amount to all the test observations
taxi_test['fare_amount'] = np.mean(taxi_train.fare_amount)

# Write predictions to the file taxi_test[['id','fare_amount']].to_csv('mean_sub.csv', index=False)
Validatie-RMSE Public LB-RMSE Positie Public LB
9.986 9.409 1449 / 1500
Een Kaggle-competitie winnen met Python

Basismodel II

# Calculate the mean fare amount by group
naive_prediction_groups = taxi_train.groupby('passenger_count').fare_amount.mean()
# Make predictions on the test set
taxi_test['fare_amount'] = taxi_test.passenger_count.map(naive_prediction_groups)

# Write predictions to the file taxi_test[['id','fare_amount']].to_csv('mean_group_sub.csv', index=False)
Validatie-RMSE Public LB-RMSE Positie Public LB
9.978 9.407 1411 / 1500
Een Kaggle-competitie winnen met Python

Basismodel III

# Select only numeric features
features = ['pickup_longitude', 'pickup_latitude',
            'dropoff_longitude', 'dropoff_latitude', 'passenger_count']
from sklearn.ensemble import GradientBoostingRegressor

# Train a Gradient Boosting model
gb = GradientBoostingRegressor()
gb.fit(taxi_train[features], taxi_train.fare_amount)

# Make predictions on the test data taxi_test['fare_amount'] = gb.predict(taxi_test[features])
Een Kaggle-competitie winnen met Python

Basismodel III

# Write predictions to the file
taxi_test[['id','fare_amount']].to_csv('gb_sub.csv', index=False)
Validatie-RMSE Public LB-RMSE Positie Public LB
5.996 4.595 1109 / 1500
Een Kaggle-competitie winnen met Python

Tussenresultaten

 

Model Validatie-RMSE Public LB-RMSE
Eenvoudig gemiddelde 9.986 9.409
Groepsgemiddelde 9.978 9.407
Gradient Boosting 5.996 4.595
Een Kaggle-competitie winnen met Python

Correlatie met Public Leaderboard

 

Model Validatie-RMSE Public LB-RMSE
Model A 3.500 3.800
Model B 3.300 4.100
Model C 3.200 3.900

 

Model Validatie-RMSE Public LB-RMSE
Model A 3.400 3.900
Model B 3.100 3.400
Model C 2.900 3.300
Een Kaggle-competitie winnen met Python

Laten we oefenen!

Een Kaggle-competitie winnen met Python

Preparing Video For Download...