Diğer veri sorunlarıyla başa çıkma

Python ile Machine Learning için Özellik Mühendisliği

Robert O'Callaghan

Director of Data Science, Ordergroove

Hatalı karakterler

print(df['RawSalary'].dtype)
dtype('O')
Python ile Machine Learning için Özellik Mühendisliği

Hatalı karakterler

print(df['RawSalary'].head())
0          NaN
1    70,841.00
2          NaN
3    21,426.00
4    41,671.00
Name: RawSalary, dtype: object
Python ile Machine Learning için Özellik Mühendisliği

Hatalı karakterlerle başa çıkma

df['RawSalary'] = df['RawSalary'].str.replace(',', '')
df['RawSalary'] = df['RawSalary'].astype('float')
Python ile Machine Learning için Özellik Mühendisliği

Diğer kaçak karakterleri bulma

coerced_vals = pd.to_numeric(df['RawSalary'], 
                             errors='coerce')
Python ile Machine Learning için Özellik Mühendisliği

Diğer kaçak karakterleri bulma

print(df[coerced_vals.isna()].head())
0           NaN
2           NaN
4     $51408.00
Name: RawSalary, dtype: object
Python ile Machine Learning için Özellik Mühendisliği

Metot zincirleme

df['column_name'] = df['column_name'].method1()
df['column_name'] = df['column_name'].method2()
df['column_name'] = df['column_name'].method3()

Aynısı:

df['column_name'] = df['column_name']\
                     .method1().method2().method3()
Python ile Machine Learning için Özellik Mühendisliği

Hatalı karakterleri düzeltin

Python ile Machine Learning için Özellik Mühendisliği

Preparing Video For Download...