Birörneklilik

Python ile Veri Temizleme

Adel Nehme

VP of AI Curriculum, DataCamp

Bu bölümde

 

 

 

 

 

 

Bölüm 3 - İleri veri sorunları

Python ile Veri Temizleme

Veri aralığı kısıtları

range_examples

Python ile Veri Temizleme

Birörneklilik

Sütun Birim
Sıcaklık 32°C aynı zamanda 89.6°F
Ağırlık 70 Kg aynı zamanda 11 st.
Tarih 26-11-2019 aynı zamanda 26, November, 2019
Para 100$ aynı zamanda 10763.90¥
Python ile Veri Temizleme

Bir örnek

temperatures = pd.read_csv('temperature.csv')
temperatures.head()
       Date  Temperature
0  03.03.19         14.0
1  04.03.19         15.0
2  05.03.19         18.0
3  06.03.19         16.0
4  07.03.19         62.6
Python ile Veri Temizleme

Bir örnek

temperatures = pd.read_csv('temperature.csv')
temperatures.head()
       Date  Temperature
0  03.03.19         14.0
1  04.03.19         15.0
2  05.03.19         18.0
3  06.03.19         16.0
4  07.03.19         62.6   <--
Python ile Veri Temizleme

Bir örnek

# Import matplotlib
import matplotlib.pyplot as plt

# Saçılım grafiği oluştur plt.scatter(x = 'Date', y = 'Temperature', data = temperatures)
# Başlık, x ve y etiketlerini ekle plt.title('Temperature in Celsius March 2019 - NYC') plt.xlabel('Dates') plt.ylabel('Temperature in Celsius')
# Grafiği göster plt.show()
Python ile Veri Temizleme

Python ile Veri Temizleme

Python ile Veri Temizleme

Sıcaklık verisini işleme

$$C = (F - 32) \times \frac{5}{9}$$

 

temp_fah = temperatures.loc[temperatures['Temperature'] > 40, 'Temperature']

temp_cels = (temp_fah - 32) * (5/9)
temperatures.loc[temperatures['Temperature'] > 40, 'Temperature'] = temp_cels
# Dönüşümün doğru olduğunu doğrula
assert temperatures['Temperature'].max() < 40
Python ile Veri Temizleme

Tarih verisini işleme

birthdays.head()
          Birthday First name Last name
0         27/27/19      Rowan     Nunez
1         03-29-19      Brynn      Yang
2  March 3rd, 2019     Sophia    Reilly
3         24-03-19     Deacon    Prince
4         06-03-19   Griffith      Neal
Python ile Veri Temizleme

Tarih verisini işleme

birthdays.head()

Doğum günleri veri kümesinin çıktısını gösteren bir tablo - bir satır ay/gün/yıl biçiminde; bir diğeri tam yazıyla; son satırda açıkça bir hata olan, gün bileşeninin iki kez tekrar ettiği bir biçim var.

Python ile Veri Temizleme

Datetime biçimlendirme

datetime tarihleri temsil etmek için kullanışlıdır

Tarih datetime biçimi
25-12-2019 %d-%m-%Y
December 25th 2019 %c
12-25-2019 %m-%d-%Y
... ...

pandas.to_datetime()

  • Çoğu biçimi otomatik algılar
  • Hatalı ya da tanınmayan biçimlerde bazen başarısız olur
Python ile Veri Temizleme

Tarih verisini işleme

# Datetime'a dönüştürür - ancak çalışmayacak!
birthdays['Birthday'] = pd.to_datetime(birthdays['Birthday'])
ValueError: month must be in 1..12
# Çalışır!
birthdays['Birthday'] = pd.to_datetime(birthdays['Birthday'],
                                       # Dönüşümün başarısız olduğu satırlara NA döndür
                                       errors = 'coerce')
Python ile Veri Temizleme

Tarih verisini işleme

birthdays.head()
    Birthday First name Last name
0        NaT      Rowan     Nunez
1 2019-03-29      Brynn      Yang
2 2019-03-03     Sophia    Reilly
3 2019-03-24     Deacon    Prince
4 2019-06-03   Griffith      Neal
Python ile Veri Temizleme

Tarih verisini işleme

birthdays['Birthday'] = birthdays['Birthday'].dt.strftime("%d-%m-%Y")
birthdays.head()
     Birthday First name Last name
0         NaT      Rowan     Nunez
1  29-03-2019      Brynn      Yang
2  03-03-2019     Sophia    Reilly
3  24-03-2019     Deacon    Prince
4  03-06-2019   Griffith      Neal
Python ile Veri Temizleme

Belirsiz tarih verisini işleme

 

2019-03-08 Ağustos'ta mı Mart'ta mı?

   

  • NA'ya dönüştürüp buna göre işleyin
  • Biçimi, veri kaynağını anlayarak çıkarın
  • Biçimi, DataFrame'deki önceki/sonraki verilere bakarak çıkarın
Python ile Veri Temizleme

Vamos praticar!

Python ile Veri Temizleme

Preparing Video For Download...