Python ile Veri Temizleme
Adel Nehme
VP of AI Curriculum, DataCamp
movies.head()
movie_name avg_rating
0 The Godfather 5
1 Frozen 2 3
2 Shrek 4
...
import matplotlib.pyplot as plt
plt.hist(movies['avg_rating'])
plt.title('Filmlerin ortalama puanı (1-5)')

Gelecekteki kayıtlar olabilir mi?
# Tarih-saat içe aktar
import datetime as dt
today_date = dt.date.today()
user_signups[user_signups['subscription_date'] > dt.date.today()]
subscription_date user_name ... Country
0 01/05/2021 Marah ... Nauru
1 09/08/2020 Joshua ... Austria
2 04/01/2020 Heidi ... Guinea
3 11/10/2020 Rina ... Turkmenistan
4 11/07/2020 Christine ... Marshall Islands
5 07/07/2020 Ayanna ... Gabon
import pandas as pd
# Puanı > 5 olan Filmleri listele
movies[movies['avg_rating'] > 5]
movie_name avg_rating
23 A Beautiful Mind 6
65 La Vita e Bella 6
77 Amelie 6
# Filtreleme ile değerleri düşür movies = movies[movies['avg_rating'] <= 5]# .drop() ile değerleri düşür movies.drop(movies[movies['avg_rating'] > 5].index, inplace = True)# Sonuçları doğrula assert movies['avg_rating'].max() <= 5
# avg_rating > 5 değerlerini 5'e çevir
movies.loc[movies['avg_rating'] > 5, 'avg_rating'] = 5
# Doğrulama ifadesi
assert movies['avg_rating'].max() <= 5
Unutmayın, çıktı yoksa geçti demektir
import datetime as dt
import pandas as pd
# Veri tiplerini görüntüle
user_signups.dtypes
subscription_date object
user_name object
Country object
dtype: object
# Tarihe dönüştür
user_signups['subscription_date'] = pd.to_datetime(user_signups['subscription_date']).dt.date
today_date = dt.date.today()
Veriyi düşürün
# Filtreleme ile değerleri düşür user_signups = user_signups[user_signups['subscription_date'] < today_date]# .drop() ile değerleri düşür user_signups.drop(user_signups[user_signups['subscription_date'] > today_date].index, inplace = True)
Üst sınırla sabit tarih kullanın
# Filtreleme ile değerleri ayarla
user_signups.loc[user_signups['subscription_date'] > today_date, 'subscription_date'] = today_date
# Doğrulama doğru
assert user_signups.subscription_date.max().date() <= today_date
Python ile Veri Temizleme