Neden özellik üretiyoruz?

Python ile Machine Learning için Özellik Mühendisliği

Robert O'Callaghan

Director of Data Science, Ordergroove

Özellik Mühendisliği

Python ile Machine Learning için Özellik Mühendisliği

Farklı veri türleri

  • Sürekli: tamsayılar veya ondalıklar
  • Kategorik: sınırlı değerlerden biri, ör. cinsiyet, doğum ülkesi
  • Sıralı: sıralı değerler, aralarındaki mesafe genelde belirsiz
  • Boolean: True/False değerleri
  • Tarih-saat: tarih ve saatler
Python ile Machine Learning için Özellik Mühendisliği

Kurs yapısı

  • Bölüm 1: Özellik oluşturma ve çıkarma

  • Bölüm 2: Dağınık veriyi işleme

  • Bölüm 3: Özellik normalizasyonu

  • Bölüm 4: Metin özellikleriyle çalışma

Python ile Machine Learning için Özellik Mühendisliği

Pandas

import pandas as pd  
df = pd.read_csv(path_to_csv_file)
print(df.head())
Python ile Machine Learning için Özellik Mühendisliği

Veri seti

              SurveyDate  \
0    2018-02-28 20:20:00     
1    2018-06-28 13:26:00     
2    2018-06-06 03:37:00     
3    2018-05-09 01:06:00     
4    2018-04-12 22:41:00    

                              FormalEducation
0    Bachelor's degree (BA. BS. B.Eng.. etc.)
1    Bachelor's degree (BA. BS. B.Eng.. etc.)
2    Bachelor's degree (BA. BS. B.Eng.. etc.)
3    Some college/university study  ...
4    Bachelor's degree (BA. BS. B.Eng.. etc.)
Python ile Machine Learning için Özellik Mühendisliği

Sütun adları

print(df.columns)
Index(['SurveyDate', 'FormalEducation',
       'ConvertedSalary', 'Hobby', 'Country',
       'StackOverflowJobsRecommend', 'VersionControl', 
       'Age', 'Years Experience', 'Gender', 
       'RawSalary'], dtype='object')
Python ile Machine Learning için Özellik Mühendisliği

Sütun türleri

print(df.dtypes)
SurveyDate                            object
FormalEducation                       object
ConvertedSalary                      float64
...
Years Experience                       int64
Gender                                object
RawSalary                             object
dtype: object
Python ile Machine Learning için Özellik Mühendisliği

Belirli veri türlerini seçme

only_ints = df.select_dtypes(include=['int'])
print(only_ints.columns)
Index(['Age', 'Years Experience'], dtype='object')
Python ile Machine Learning için Özellik Mühendisliği

Hadi başlayalım!

Python ile Machine Learning için Özellik Mühendisliği

Preparing Video For Download...