Uniformité

Nettoyage des données en Python

Adel Nehme

VP of AI Curriculum, DataCamp

Dans ce chapitre

 

 

 

 

 

 

Chapitre 3 - Problèmes avancés liés aux données

Nettoyage des données en Python

Contraintes relatives à la plage de données

range_examples

Nettoyage des données en Python

Uniformité

Colonne Unité
Température 32°C équivaut à 89.6°F
Poids 70 Kg équivaut à 11 st.
Date 26-11-2019 équivaut à 26, November, 2019
Argent 100$ équivaut à 10763.90¥
Nettoyage des données en Python

Un exemple

temperatures = pd.read_csv('temperature.csv')
temperatures.head()
       Date  Temperature
0  03.03.19         14.0
1  04.03.19         15.0
2  05.03.19         18.0
3  06.03.19         16.0
4  07.03.19         62.6
Nettoyage des données en Python

Un exemple

temperatures = pd.read_csv('temperature.csv')
temperatures.head()
       Date  Temperature
0  03.03.19         14.0
1  04.03.19         15.0
2  05.03.19         18.0
3  06.03.19         16.0
4  07.03.19         62.6   <--
Nettoyage des données en Python

Un exemple

# Import matplotlib
import matplotlib.pyplot as plt

# Create scatter plot plt.scatter(x = 'Date', y = 'Temperature', data = temperatures)
# Create title, xlabel and ylabel plt.title('Temperature in Celsius March 2019 - NYC') plt.xlabel('Dates') plt.ylabel('Temperature in Celsius')
# Show plot plt.show()
Nettoyage des données en Python

Nettoyage des données en Python

Nettoyage des données en Python

Traitement des données de température

$$C = (F - 32) \times \frac{5}{9}$$

 

temp_fah = temperatures.loc[temperatures['Temperature'] > 40, 'Temperature']

temp_cels = (temp_fah - 32) * (5/9)
temperatures.loc[temperatures['Temperature'] > 40, 'Temperature'] = temp_cels
# Assert conversion is correct
assert temperatures['Temperature'].max() < 40
Nettoyage des données en Python

Traitement des données relatives aux dates

birthdays.head()
          Birthday First name Last name
0         27/27/19      Rowan     Nunez
1         03-29-19      Brynn      Yang
2  March 3rd, 2019     Sophia    Reilly
3         24-03-19     Deacon    Prince
4         06-03-19   Griffith      Neal
Nettoyage des données en Python

Traitement des données relatives aux dates

birthdays.head()

A table showing the output of the birthdays dataset - one row has a date in month, day, year format; another has it written out in full; a final row contains a format that is clearly an error - repeating the day component twice.

Nettoyage des données en Python

Formatage de la date et de l'heure

datetime est utile pour représenter des dates

Date Format datetime
25/12/2019 %d-%m-%Y
25 décembre 2019 %c
25-12-2019 %m-%d-%Y

pandas.to_datetime()

  • Reconnaît automatiquement la plupart des formats
  • Parfois, des échecs surviennent en raison de formats erronés ou non reconnus
Nettoyage des données en Python

Traitement des données relatives aux dates

# Converts to datetime - but won't work!
birthdays['Birthday'] = pd.to_datetime(birthdays['Birthday'])
ValueError: month must be in 1..12
# Will work!
birthdays['Birthday'] = pd.to_datetime(birthdays['Birthday'],
                                       # Return NA for rows where conversion failed
                                       errors = 'coerce')
Nettoyage des données en Python

Traitement des données relatives aux dates

birthdays.head()
    Birthday First name Last name
0        NaT      Rowan     Nunez
1 2019-03-29      Brynn      Yang
2 2019-03-03     Sophia    Reilly
3 2019-03-24     Deacon    Prince
4 2019-06-03   Griffith      Neal
Nettoyage des données en Python

Traitement des données relatives aux dates

birthdays['Birthday'] = birthdays['Birthday'].dt.strftime("%d-%m-%Y")
birthdays.head()
     Birthday First name Last name
0         NaT      Rowan     Nunez
1  29-03-2019      Brynn      Yang
2  03-03-2019     Sophia    Reilly
3  24-03-2019     Deacon    Prince
4  03-06-2019   Griffith      Neal
Nettoyage des données en Python

Traitement des données de date ambiguës

 

Est-ce que 2019-03-08 est en août ou en mars ?

   

  • Convertir en NA et procéder en conséquence
  • Déduire le format en analysant la source des données
  • Déduire le format en analysant les données précédentes et suivantes dans DataFrame
Nettoyage des données en Python

Passons à la pratique !

Nettoyage des données en Python

Preparing Video For Download...