Pulire i dati testuali

Pulizia dei dati in Python

Adel Nehme

VP of AI Curriculum, DataCamp

Cos'è il testo nei dati?

Tipo di dato Esempi
Nomi Alex, Sara ...
Numeri di telefono +96171679912 ...
Email `[email protected]`..
Password ...

 

Problemi comuni nei dati testuali

1) Incoerenza dei dati:  

+96171679912 o 0096171679912 o ..?

2) Violazioni di lunghezza fissa:  

Le password devono avere almeno 8 caratteri

3) Refusi:  

+961.71.679912

Pulizia dei dati in Python

Esempio

phones = pd.read_csv('phones.csv')
print(phones)
              Full name      Phone number
0       Noelani A. Gray  001-702-397-5143
1        Myles Z. Gomez  001-329-485-0540
2          Gil B. Silva  001-195-492-2338
3    Prescott D. Hardin   +1-297-996-4904
4    Benedict G. Valdez  001-969-820-3536
5      Reece M. Andrews              4138
6        Hayfa E. Keith  001-536-175-8444
7       Hedley I. Logan  001-681-552-1823
8      Jack W. Carrillo  001-910-323-5265
9       Lionel M. Davis  001-143-119-9210
Pulizia dei dati in Python

Esempio

phones = pd.read_csv('phones.csv')
print(phones)
              Full name      Phone number
0       Noelani A. Gray  001-702-397-5143
1        Myles Z. Gomez  001-329-485-0540
2          Gil B. Silva  001-195-492-2338
3    Prescott D. Hardin   +1-297-996-4904   <-- Formato incoerente
4    Benedict G. Valdez  001-969-820-3536
5      Reece M. Andrews              4138   <-- Violazione lunghezza
6        Hayfa E. Keith  001-536-175-8444
7       Hedley I. Logan  001-681-552-1823
8      Jack W. Carrillo  001-910-323-5265
9       Lionel M. Davis  001-143-119-9210
Pulizia dei dati in Python

Esempio

phones = pd.read_csv('phones.csv')
print(phones)
              Full name   Phone number
0       Noelani A. Gray  0017023975143
1        Myles Z. Gomez  0013294850540
2          Gil B. Silva  0011954922338
3    Prescott D. Hardin  0012979964904
4    Benedict G. Valdez  0019698203536
5      Reece M. Andrews            NaN
6        Hayfa E. Keith  0015361758444
7       Hedley I. Logan  0016815521823
8      Jack W. Carrillo  0019103235265
9       Lionel M. Davis  0011431199210
Pulizia dei dati in Python

Correggere la colonna del numero di telefono

# Sostituisci "+" con "00"
phones["Phone number"] = phones["Phone number"].str.replace("+", "00")
phones
            Full name      Phone number
0     Noelani A. Gray  001-702-397-5143
1      Myles Z. Gomez  001-329-485-0540
2        Gil B. Silva  001-195-492-2338
3  Prescott D. Hardin  001-297-996-4904
4  Benedict G. Valdez  001-969-820-3536
5    Reece M. Andrews              4138
6      Hayfa E. Keith  001-536-175-8444
7     Hedley I. Logan  001-681-552-1823
8    Jack W. Carrillo  001-910-323-5265
9     Lionel M. Davis  001-143-119-9210
Pulizia dei dati in Python

Correggere la colonna del numero di telefono

# Sostituisci "-" con niente
phones["Phone number"] = phones["Phone number"].str.replace("-", "")
phones
            Full name   Phone number
0     Noelani A. Gray  0017023975143
1      Myles Z. Gomez  0013294850540
2        Gil B. Silva  0011954922338
3  Prescott D. Hardin  0012979964904
4  Benedict G. Valdez  0019698203536
5    Reece M. Andrews           4138
6      Hayfa E. Keith  0015361758444
7     Hedley I. Logan  0016815521823
8    Jack W. Carrillo  0019103235265
9     Lionel M. Davis  0011431199210
Pulizia dei dati in Python

Correggere la colonna del numero di telefono

# Sostituisci i numeri di telefono con meno di 10 cifre con NaN
digits = phones['Phone number'].str.len()
phones.loc[digits < 10, "Phone number"] = np.nan
phones
              Full name   Phone number
0       Noelani A. Gray  0017023975143
1        Myles Z. Gomez  0013294850540
2          Gil B. Silva  0011954922338
3    Prescott D. Hardin  0012979964904
4    Benedict G. Valdez  0019698203536
5      Reece M. Andrews            NaN
6        Hayfa E. Keith  0015361758444
7       Hedley I. Logan  0016815521823
8      Jack W. Carrillo  0019103235265
9       Lionel M. Davis  0011431199210
Pulizia dei dati in Python

Correggere la colonna del numero di telefono

# Trova la lunghezza di ogni riga nella colonna Phone number
sanity_check = phone['Phone number'].str.len()
# Verifica che la lunghezza minima sia 10
assert sanity_check.min() >= 10
# Verifica che non ci siano "+" o "-"
assert phone['Phone number'].str.contains("+|-").any() == False

                                                Ricorda: assert non restituisce nulla se la condizione è vera

Pulizia dei dati in Python

E i casi più complicati?

phones.head()
          Full name    Phone number
0     Olga Robinson  +(01706)-25891
1       Justina Kim    +0500-571437
2    Tamekah Henson      +0800-1111
3     Miranda Solis   +07058-879063
4  Caldwell Gilliam  +(016977)-8424

 

                                                                                        Control + F potenziato

Pulizia dei dati in Python

Espressioni regolari in azione

# Sostituisci le lettere con niente
phones['Phone number'] = phones['Phone number'].str.replace(r'\D+', '')
phones.head()
          Full name Phone number
0     Olga Robinson   0170625891
1       Justina Kim   0500571437
2    Tamekah Henson     08001111
3     Miranda Solis  07058879063
4  Caldwell Gilliam   0169778424
Pulizia dei dati in Python

Passons à la pratique !

Pulizia dei dati in Python

Preparing Video For Download...