Mengapa ada nilai hilang?

Rekayasa Fitur untuk Machine Learning di Python

Robert O'Callaghan

Director of Data Science, Ordergroove

Bagaimana celah data terjadi

  • Data tidak dikumpulkan dengan benar
  • Kesalahan pengumpulan dan pengelolaan
  • Data sengaja dihilangkan
  • Muncul akibat transformasi data
Rekayasa Fitur untuk Machine Learning di Python

Mengapa kita peduli?

  • Beberapa model tidak dapat menangani data hilang (Null/NaN)
  • Data hilang bisa menandakan masalah data yang lebih luas
  • Data hilang bisa menjadi fitur yang berguna
Rekayasa Fitur untuk Machine Learning di Python

Menemukan nilai hilang

print(df.info())
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 12 columns):
 #   Column                      Non-Null Count  Dtype  
 --  ------                      --------------  -----  
 0   SurveyDate                  999 non-null    object 
...  ...                         ...             ...
 8   StackOverflowJobsRecommend  487 non-null    float64
 9   VersionControl              999 non-null    object 
 10  Gender                      693 non-null    object 
 11  RawSalary                   665 non-null    object 
dtypes: float64(2), int64(2), object(8)
memory usage: 93.7+ KB
Rekayasa Fitur untuk Machine Learning di Python

Menemukan nilai hilang

print(df.isnull())
   StackOverflowJobsRecommend  VersionControl  ... \ 
0                        True           False  ...
1                       False           False  ...
2                       False           False  ...
3                        True           False  ...
4                       False           False  ...

   Gender  RawSalary
0   False       True
1   False      False
2    True       True
3   False      False
4   False      False
Rekayasa Fitur untuk Machine Learning di Python

Menemukan nilai hilang

print(df['StackOverflowJobsRecommend'].isnull().sum())
512
Rekayasa Fitur untuk Machine Learning di Python

Menemukan nilai tidak hilang

print(df.notnull())
   StackOverflowJobsRecommend  VersionControl  ... \
0                       False            True  ...
1                        True            True  ...
2                        True            True  ...
3                       False            True  ...
4                        True            True  ...

   Gender  RawSalary
0    True      False
1    True       True
2   False      False
3    True       True
4    True       True
Rekayasa Fitur untuk Machine Learning di Python

Silakan cari nilai hilang!

Rekayasa Fitur untuk Machine Learning di Python

Preparing Video For Download...