Mengapa membuat fitur?

Rekayasa Fitur untuk Machine Learning di Python

Robert O'Callaghan

Director of Data Science, Ordergroove

Rekayasa Fitur

Rekayasa Fitur untuk Machine Learning di Python

Berbagai jenis data

  • Kontinu: bilangan bulat atau pecahan (desimal)
  • Kategorikal: satu dari nilai terbatas, mis. gender, negara lahir
  • Ordinal: nilai berperingkat, sering tanpa jarak yang jelas
  • Boolean: nilai True/False
  • Datetime: tanggal dan waktu
Rekayasa Fitur untuk Machine Learning di Python

Struktur kursus

  • Bab 1: Pembuatan dan ekstraksi fitur

  • Bab 2: Mengolah data berantakan

  • Bab 3: Normalisasi fitur

  • Bab 4: Bekerja dengan fitur teks

Rekayasa Fitur untuk Machine Learning di Python

Pandas

import pandas as pd  
df = pd.read_csv(path_to_csv_file)
print(df.head())
Rekayasa Fitur untuk Machine Learning di Python

Dataset

              SurveyDate  \
0    2018-02-28 20:20:00     
1    2018-06-28 13:26:00     
2    2018-06-06 03:37:00     
3    2018-05-09 01:06:00     
4    2018-04-12 22:41:00    

                              FormalEducation
0    Bachelor's degree (BA. BS. B.Eng.. etc.)
1    Bachelor's degree (BA. BS. B.Eng.. etc.)
2    Bachelor's degree (BA. BS. B.Eng.. etc.)
3    Some college/university study  ...
4    Bachelor's degree (BA. BS. B.Eng.. etc.)
Rekayasa Fitur untuk Machine Learning di Python

Nama kolom

print(df.columns)
Index(['SurveyDate', 'FormalEducation',
       'ConvertedSalary', 'Hobby', 'Country',
       'StackOverflowJobsRecommend', 'VersionControl', 
       'Age', 'Years Experience', 'Gender', 
       'RawSalary'], dtype='object')
Rekayasa Fitur untuk Machine Learning di Python

Tipe kolom

print(df.dtypes)
SurveyDate                            object
FormalEducation                       object
ConvertedSalary                      float64
...
Years Experience                       int64
Gender                                object
RawSalary                             object
dtype: object
Rekayasa Fitur untuk Machine Learning di Python

Memilih tipe data tertentu

only_ints = df.select_dtypes(include=['int'])
print(only_ints.columns)
Index(['Age', 'Years Experience'], dtype='object')
Rekayasa Fitur untuk Machine Learning di Python

Ayo mulai!

Rekayasa Fitur untuk Machine Learning di Python

Preparing Video For Download...