Veri aralığı kısıtları

Python ile Veri Temizleme

Adel Nehme

VP of AI Curriculum, DataCamp

Motivasyon

movies.head()
     movie_name     avg_rating
0    The Godfather           5
1    Frozen 2                3
2    Shrek                   4
...    
Python ile Veri Temizleme

Motivasyon

import matplotlib.pyplot as plt
plt.hist(movies['avg_rating'])
plt.title('Filmlerin ortalama puanı (1-5)')

kalp_atışı_normal

Python ile Veri Temizleme

Motivasyon

Gelecekteki kayıtlar olabilir mi?

# Tarih-saat içe aktar
import datetime as dt
today_date = dt.date.today()
user_signups[user_signups['subscription_date'] > dt.date.today()]
   subscription_date  user_name         ...             Country
0         01/05/2021      Marah         ...             Nauru
1         09/08/2020     Joshua         ...             Austria
2         04/01/2020      Heidi         ...             Guinea
3         11/10/2020       Rina         ...             Turkmenistan
4         11/07/2020  Christine         ...             Marshall Islands
5         07/07/2020     Ayanna         ...             Gabon

Python ile Veri Temizleme

Aralık dışı verilerle nasıl başa çıkılır?

  • Veriyi düşürme
  • Özel minimum ve maksimumlar belirleme
  • Eksik kabul edip atama (impute)
  • İş varsayımlarına göre özel değer atama
Python ile Veri Temizleme

Film örneği

import pandas as pd
# Puanı > 5 olan Filmleri listele
movies[movies['avg_rating'] > 5]
         movie_name  avg_rating
23  A Beautiful Mind           6
65   La Vita e Bella           6
77            Amelie           6
# Filtreleme ile değerleri düşür
movies = movies[movies['avg_rating'] <= 5]

# .drop() ile değerleri düşür movies.drop(movies[movies['avg_rating'] > 5].index, inplace = True)
# Sonuçları doğrula assert movies['avg_rating'].max() <= 5
Python ile Veri Temizleme

Film örneği

# avg_rating > 5 değerlerini 5'e çevir
movies.loc[movies['avg_rating'] > 5, 'avg_rating'] = 5
# Doğrulama ifadesi
assert movies['avg_rating'].max() <= 5

Unutmayın, çıktı yoksa geçti demektir

Python ile Veri Temizleme

Tarih aralığı örneği

import datetime as dt
import pandas as pd
# Veri tiplerini görüntüle
user_signups.dtypes
subscription_date    object
user_name            object
Country              object
dtype: object
# Tarihe dönüştür
user_signups['subscription_date'] = pd.to_datetime(user_signups['subscription_date']).dt.date
Python ile Veri Temizleme

Tarih aralığı örneği

today_date = dt.date.today()

Veriyi düşürün

# Filtreleme ile değerleri düşür
user_signups = user_signups[user_signups['subscription_date'] < today_date]

# .drop() ile değerleri düşür user_signups.drop(user_signups[user_signups['subscription_date'] > today_date].index, inplace = True)

Üst sınırla sabit tarih kullanın

# Filtreleme ile değerleri ayarla
user_signups.loc[user_signups['subscription_date'] > today_date, 'subscription_date'] = today_date
# Doğrulama doğru
assert user_signups.subscription_date.max().date() <= today_date
Python ile Veri Temizleme

Hadi pratik yapalım!

Python ile Veri Temizleme

Preparing Video For Download...