Analyse de données exploratoires en Python
George Boorman
Curriculum Manager, DataCamp
Colonne | Description | Type de données |
---|---|---|
Working_Year |
Année d'obtention des données | Flottant |
Designation |
Intitulé du poste | Chaîne |
Experience |
Niveau d'expérience, par exemple : "Mid" , "Senior" |
Chaîne |
Employment_Status |
Type de contrat de travail, par exemple : "Temps complet" , "Temps partiel" |
Chaîne |
Employee_Location |
Pays d'emploi | Chaîne |
Company_Size |
Étiquettes pour la taille de l'entreprise, par exemple "TPE" , "PME" , "Grande entreprise" |
Chaîne |
Remote_Working_Ratio |
Pourcentage de temps passé en télétravail | Entier |
Salary_USD |
Salaire en dollars américains | Flottant |
print(salaries.isna().sum())
Working_Year 12
Designation 27
Experience 33
Employment_Status 31
Employee_Location 28
Company_Size 40
Remote_Working_Ratio 24
Salary_USD 60
dtype: int64
threshold = len(salaries) * 0.05
print(threshold)
30
cols_to_drop = salaries.columns[salaries.isna().sum() <= threshold]
print(cols_to_drop)
Index(['Working_Year', 'Designation', 'Employee_Location',
'Remote_Working_Ratio'],
dtype='object')
salaries.dropna(subset=cols_to_drop, inplace=True)
cols_with_missing_values = salaries.columns[salaries.isna().sum() > 0]
print(cols_with_missing_values)
Index(['Experience', 'Employment_Status', 'Company_Size', 'Salary_USD'],
dtype='object')
for col in cols_with_missing_values[:-1]:
salaries[col].fillna(salaries[col].mode()[0])
print(salaries.isna().sum())
Working_Year 0
Designation 0
Experience 0
Employment_Status 0
Employee_Location 0
Company_Size 0
Remote_Working_Ratio 0
Salary_USD 41
salaries_dict = salaries.groupby("Experience")["Salary_USD"].median().to_dict()
print(salaries_dict)
{'Entry': 55380.0, 'Executive': 135439.0, 'Mid': 74173.5, 'Senior': 128903.0}
salaries["Salary_USD"] = salaries["Salary_USD"].fillna(salaries["Experience"].map(salaries_dict))
print(salaries.isna().sum())
Working_Year 0
Designation 0
Experience 0
Employment_Status 0
Employee_Location 0
Company_Size 0
Remote_Working_Ratio 0
Salary_USD 0
dtype: int64
Analyse de données exploratoires en Python