Metin verilerini temizleme

Python ile Veri Temizleme

Adel Nehme

VP of AI Curriculum, DataCamp

Metin verisi nedir?

Veri türü Örnek değerler
İsimler Alex, Sara ...
Telefon numaraları +96171679912 ...
E-postalar `[email protected]`..
Parolalar ...

 

Yaygın metin veri sorunları

1) Veri tutarsızlığı:  

+96171679912 veya 0096171679912 ya da ..?

2) Sabit uzunluk ihlalleri:  

Parolalar en az 8 karakter olmalıdır

3) Yazım hataları:  

+961.71.679912

Python ile Veri Temizleme

Örnek

phones = pd.read_csv('phones.csv')
print(phones)
              Full name      Phone number
0       Noelani A. Gray  001-702-397-5143
1        Myles Z. Gomez  001-329-485-0540
2          Gil B. Silva  001-195-492-2338
3    Prescott D. Hardin   +1-297-996-4904
4    Benedict G. Valdez  001-969-820-3536
5      Reece M. Andrews              4138
6        Hayfa E. Keith  001-536-175-8444
7       Hedley I. Logan  001-681-552-1823
8      Jack W. Carrillo  001-910-323-5265
9       Lionel M. Davis  001-143-119-9210
Python ile Veri Temizleme

Örnek

phones = pd.read_csv('phones.csv')
print(phones)
              Full name      Phone number
0       Noelani A. Gray  001-702-397-5143
1        Myles Z. Gomez  001-329-485-0540
2          Gil B. Silva  001-195-492-2338
3    Prescott D. Hardin   +1-297-996-4904   <-- Tutarsız veri biçimi
4    Benedict G. Valdez  001-969-820-3536
5      Reece M. Andrews              4138   <-- Uzunluk ihlali
6        Hayfa E. Keith  001-536-175-8444
7       Hedley I. Logan  001-681-552-1823
8      Jack W. Carrillo  001-910-323-5265
9       Lionel M. Davis  001-143-119-9210
Python ile Veri Temizleme

Örnek

phones = pd.read_csv('phones.csv')
print(phones)
              Full name   Phone number
0       Noelani A. Gray  0017023975143
1        Myles Z. Gomez  0013294850540
2          Gil B. Silva  0011954922338
3    Prescott D. Hardin  0012979964904
4    Benedict G. Valdez  0019698203536
5      Reece M. Andrews            NaN
6        Hayfa E. Keith  0015361758444
7       Hedley I. Logan  0016815521823
8      Jack W. Carrillo  0019103235265
9       Lionel M. Davis  0011431199210
Python ile Veri Temizleme

Telefon numarası sütununu düzeltme

# "+" öğesini "00" ile değiştirin
phones["Phone number"] = phones["Phone number"].str.replace("+", "00")
phones
            Full name      Phone number
0     Noelani A. Gray  001-702-397-5143
1      Myles Z. Gomez  001-329-485-0540
2        Gil B. Silva  001-195-492-2338
3  Prescott D. Hardin  001-297-996-4904
4  Benedict G. Valdez  001-969-820-3536
5    Reece M. Andrews              4138
6      Hayfa E. Keith  001-536-175-8444
7     Hedley I. Logan  001-681-552-1823
8    Jack W. Carrillo  001-910-323-5265
9     Lionel M. Davis  001-143-119-9210
Python ile Veri Temizleme

Telefon numarası sütununu düzeltme

# "-" öğesini boşlukla değiştirin
phones["Phone number"] = phones["Phone number"].str.replace("-", "")
phones
            Full name   Phone number
0     Noelani A. Gray  0017023975143
1      Myles Z. Gomez  0013294850540
2        Gil B. Silva  0011954922338
3  Prescott D. Hardin  0012979964904
4  Benedict G. Valdez  0019698203536
5    Reece M. Andrews           4138
6      Hayfa E. Keith  0015361758444
7     Hedley I. Logan  0016815521823
8    Jack W. Carrillo  0019103235265
9     Lionel M. Davis  0011431199210
Python ile Veri Temizleme

Telefon numarası sütununu düzeltme

# 10 haneden kısa telefonları NaN ile değiştirin
digits = phones['Phone number'].str.len()
phones.loc[digits < 10, "Phone number"] = np.nan
phones
              Full name   Phone number
0       Noelani A. Gray  0017023975143
1        Myles Z. Gomez  0013294850540
2          Gil B. Silva  0011954922338
3    Prescott D. Hardin  0012979964904
4    Benedict G. Valdez  0019698203536
5      Reece M. Andrews            NaN
6        Hayfa E. Keith  0015361758444
7       Hedley I. Logan  0016815521823
8      Jack W. Carrillo  0019103235265
9       Lionel M. Davis  0011431199210
Python ile Veri Temizleme

Telefon numarası sütununu düzeltme

# Phone number sütununda her satırın uzunluğunu bulun
sanity_check = phone['Phone number'].str.len()
# En kısa telefon numarası uzunluğunun 10 olduğunu doğrulayın
assert sanity_check.min() >= 10
# Tüm numaralarda "+" veya "-" olmadığını doğrulayın
assert phone['Phone number'].str.contains("+|-").any() == False

                                                Unutmayın, assert koşul sağlanırsa hiçbir şey döndürmez

Python ile Veri Temizleme

Peki ya daha karmaşık örnekler?

phones.head()
          Full name    Phone number
0     Olga Robinson  +(01706)-25891
1       Justina Kim    +0500-571437
2    Tamekah Henson      +0800-1111
3     Miranda Solis   +07058-879063
4  Caldwell Gilliam  +(016977)-8424

 

                                                                                        Güçlendirilmiş Ctrl + F

Python ile Veri Temizleme

Düzenli ifadeler iş başında

# Harfleri boşlukla değiştirin
phones['Phone number'] = phones['Phone number'].str.replace(r'\D+', '')
phones.head()
          Full name Phone number
0     Olga Robinson   0170625891
1       Justina Kim   0500571437
2    Tamekah Henson     08001111
3     Miranda Solis  07058879063
4  Caldwell Gilliam   0169778424
Python ile Veri Temizleme

Hadi pratik yapalım!

Python ile Veri Temizleme

Preparing Video For Download...