Ontbrekende data aanpakken

Exploratory Data Analysis in Python

George Boorman

Curriculum Manager, DataCamp

Waarom zijn ontbrekende waarden een probleem?

  • Verstoort verdelingen
    • Ontbrekende lengtes van langere studenten
  • Minder representatief voor de populatie
    • Bepaalde groepen over- of ondervertegenwoordigd, bv. geen data van oudste studenten
  • Kan tot verkeerde conclusies leiden

Steekproef vs. populatie lengtedistributie; steekproef heeft lagere maximum en gemiddelde

Exploratory Data Analysis in Python

Data over banen van dataprofessionals

Kolom Beschrijving Gegevenstype
Working_Year Jaar van datapunt Float
Designation Functietitel String
Experience Ervaringsniveau, bijv. "Mid", "Senior" String
Employment_Status Contracttype, bijv. "FT", "PT" String
Employee_Location Land van tewerkstelling String
Company_Size Bedrijfsgrootte, bijv. "S", "M", "L" String
Remote_Working_Ratio Percentage remote werken Integer
Salary_USD Salaris in Amerikaanse dollars Float
Exploratory Data Analysis in Python

Salaris per ervaringsniveau

Boxplot van salarissen per ervaringsniveau met de opgeschoonde dataset; bovengrens rond 600000 dollar

Boxplot van salarissen per ervaringsniveau met een dataset met missende waarden; bovengrens rond 450000 dollar

Exploratory Data Analysis in Python

Controleren op missende waarden

print(salaries.isna().sum())
Working_Year            12
Designation             27
Experience              33
Employment_Status       31
Employee_Location       28
Company_Size            40
Remote_Working_Ratio    24
Salary_USD              60
dtype: int64
Exploratory Data Analysis in Python

Strategieën voor ontbrekende data

  • Verwijder missende waarden
    • 5% of minder van alle waarden
  • Imputeer met gemiddelde, mediaan, modus
    • Hangt af van verdeling en context
  • Imputeer per subgroep
    • Ervaringsniveaus hebben andere mediasalarissen
Exploratory Data Analysis in Python

Missende waarden verwijderen

threshold = len(salaries) * 0.05
print(threshold)
30
Exploratory Data Analysis in Python

Missende waarden verwijderen

cols_to_drop = salaries.columns[salaries.isna().sum() <= threshold]

print(cols_to_drop)
Index(['Working_Year', 'Designation', 'Employee_Location',
       'Remote_Working_Ratio'],
      dtype='object')
salaries.dropna(subset=cols_to_drop, inplace=True)
Exploratory Data Analysis in Python

Imputeren met een samenvattingsmaat

cols_with_missing_values = salaries.columns[salaries.isna().sum() > 0]
print(cols_with_missing_values)
Index(['Experience', 'Employment_Status', 'Company_Size', 'Salary_USD'], 
    dtype='object')
for col in cols_with_missing_values[:-1]:
    salaries[col].fillna(salaries[col].mode()[0])
Exploratory Data Analysis in Python

Resterende missende waarden controleren

print(salaries.isna().sum())
Working_Year             0
Designation              0
Experience               0
Employment_Status        0
Employee_Location        0
Company_Size             0
Remote_Working_Ratio     0
Salary_USD              41
Exploratory Data Analysis in Python

Imputeren per subgroep

salaries_dict = salaries.groupby("Experience")["Salary_USD"].median().to_dict()

print(salaries_dict)
{'Entry': 55380.0, 'Executive': 135439.0, 'Mid': 74173.5, 'Senior': 128903.0}
Exploratory Data Analysis in Python

Imputeren per subgroep

salaries["Salary_USD"] = salaries["Salary_USD"].fillna(salaries["Experience"].map(salaries_dict))
Exploratory Data Analysis in Python

Geen missende waarden meer!

print(salaries.isna().sum())
Working_Year            0
Designation             0
Experience              0
Employment_Status       0
Employee_Location       0
Company_Size            0
Remote_Working_Ratio    0
Salary_USD              0
dtype: int64
Exploratory Data Analysis in Python

Laten we oefenen!

Exploratory Data Analysis in Python

Preparing Video For Download...