Menafsirkan, Menyimpan, & Memuat Model

Rekayasa Fitur dengan PySpark

John Hogue

Lead Data Scientist, General Mills

Menafsirkan Model

import pandas as pd
# Ubah feature importance menjadi kolom pandas
fi_df = pd.DataFrame(model.featureImportances.toArray(), 
                     columns=['importance'])
# Ubah daftar nama fitur menjadi kolom pandas
fi_df['feature'] = pd.Series(feature_cols)
# Urutkan data berdasarkan feature importance
fi_df.sort_values(by=['importance'], ascending=False, inplace=True)
Rekayasa Fitur dengan PySpark

Menafsirkan Model

# Tafsirkan hasil
model_df.head(9)
|          feature        |importance|
|-------------------------|----------|
| LISTPRICE               | 0.312101 |
| ORIGINALLISTPRICE       | 0.202142 |
| LIVINGAREA              | 0.124239 |
| SQFT_TOTAL              | 0.081260 |
| LISTING_TO_MEDIAN_RATIO | 0.075086 |
| TAXES                   | 0.048452 |
| SQFTABOVEGROUND         | 0.045859 |
| BATHSTOTAL              | 0.034397 |
| LISTING_PRICE_PER_SQFT  | 0.018253 |
Rekayasa Fitur dengan PySpark

Menyimpan & Memuat Model

# Simpan model
model.save('rfr_real_estate_model')
from pyspark.ml.regression import RandomForestRegressionModel

# Muat model dari
model2 = RandomForestRegressionModel.load('rfr_real_estate_model')
Rekayasa Fitur dengan PySpark

Lanjut ke set latihan terakhir Anda!

Rekayasa Fitur dengan PySpark

Preparing Video For Download...