Conversion et analyse des données catégorielles

Analyse de données exploratoires en Python

George Boorman

Curriculum Manager, DataCamp

Aperçu des données

print(salaries.select_dtypes("object").head())
  Designation                 Experience    Employment_Status    Employee_Location    Company_Size
0 Data Scientist              Mid           FT                   DE                   L
1 Machine Learning Scientist  Senior        FT                   JP                   S
2 Big Data Engineer           Senior        FT                   GB                   M
3 Product Data Analyst        Mid           FT                   HN                   S
4 Machine Learning Engineer   Senior        FT                   US                   L
Analyse de données exploratoires en Python

Titres des postes

print(salaries["Designation"].value_counts())
Data Scientist                              143
Data Engineer                               132
Data Analyst                                 97
Machine Learning Engineer                    41
Research Scientist                           16
Data Science Manager                         12
Data Architect                               11
Big Data Engineer                             8
Machine Learning Scientist                    8
...
Analyse de données exploratoires en Python

Titres des postes

print(salaries["Designation"].nunique())
50
Analyse de données exploratoires en Python

Titres des postes

![Graphique à barres illustrant les cinq rôles les plus populaires dans le domaine des données : data scientist, ingénieur de données, analyste de données, ingénieur en apprentissage automatique et chercheur scientifique. (https://assets.datacamp.com/production/repositories/6180/datasets/a8abbf39fc7509e4524e85a75fc77f6bb434e137/top_five_job_titles_v2.png = 85)

Analyse de données exploratoires en Python

Tirer de la valeur des catégories

  • Le format actuel limite notre capacité à générer des informations pertinentes.

  • pandas.Series.str.contains()

    • Rechercher une chaîne ou plusieurs chaînes dans une colonne
salaries["Designation"].str.contains("Scientist")
0       True
1       True
2      False
3      False
       ...  
604    False
605    False
606     True
Name: Designation, Length: 607, dtype: bool
Analyse de données exploratoires en Python

Recherche de plusieurs expressions dans des chaînes

  • Termes importants : Machine learning ou IA
salaries["Designation"].str.contains("Machine Learning|AI")
0      False
1       True
2      False
3      False
       ...  
604    False
605    False
606     True
Name: Designation, Length: 607, dtype: bool
Analyse de données exploratoires en Python

Recherche de plusieurs expressions dans des chaînes

  • Termes importants : Tous ceux qui commencent par « Data »
salaries["Designation"].str.contains("^Data")
0       True
1      False
2      False
3      False
       ...  
604     True
605     True
606    False
Name: Designation, Length: 607, dtype: bool
Analyse de données exploratoires en Python

Recherche de plusieurs expressions dans des chaînes

job_categories = ["Data Science", "Data Analytics", 
                  "Data Engineering", "Machine Learning",
                  "Managerial", "Consultant"]
Analyse de données exploratoires en Python

Recherche de plusieurs expressions dans des chaînes

data_science = "Data Scientist|NLP"

data_analyst = "Analyst|Analytics"
data_engineer = "Data Engineer|ETL|Architect|Infrastructure"
ml_engineer = "Machine Learning|ML|Big Data|AI"
manager = "Manager|Head|Director|Lead|Principal|Staff"
consultant = "Consultant|Freelance"
Analyse de données exploratoires en Python

Recherche de plusieurs expressions dans des chaînes

conditions = [
    (salaries["Designation"].str.contains(data_science)),

(salaries["Designation"].str.contains(data_analyst)),
(salaries["Designation"].str.contains(data_engineer)),
(salaries["Designation"].str.contains(ml_engineer)),
(salaries["Designation"].str.contains(manager)),
(salaries["Designation"].str.contains(consultant)) ]
Analyse de données exploratoires en Python

Création de la colonne catégorielle

salaries["Job_Category"] = 


Analyse de données exploratoires en Python

Création de la colonne catégorielle

salaries["Job_Category"] = np.select(conditions, 


Analyse de données exploratoires en Python

Création de la colonne catégorielle

salaries["Job_Category"] = np.select(conditions, 
                                     job_categories, 

Analyse de données exploratoires en Python

Création de la colonne catégorielle

salaries["Job_Category"] = np.select(conditions, 
                                     job_categories, 
                                     default="Other")
Analyse de données exploratoires en Python

Aperçu des catégories d'emplois

print(salaries[["Designation", "Job_Category"]].head())
                  Designation      Job_Category
0              Data Scientist      Data Science
1  Machine Learning Scientist  Machine Learning
2           Big Data Engineer  Data Engineering
3        Product Data Analyst    Data Analytics
4   Machine Learning Engineer  Machine Learning
Analyse de données exploratoires en Python

Visualisation de la fréquence des catégories d'emplois

sns.countplot(data=salaries, x="Job_Category")

plt.show()

![Graphique à barres affichant le nombre de tâches par catégorie] (https://assets.datacamp.com/production/repositories/6180/datasets/86b63748d5fd6a6d2de08f739662bf3e1690fe99/job_categories_countplot_v2.png =50)

Analyse de données exploratoires en Python

Passons à la pratique !

Analyse de données exploratoires en Python

Preparing Video For Download...