Veri türü kısıtları

Python ile Veri Temizleme

Adel Nehme

VP of AI Curriculum, DataCamp

Kurs planı

kirli_veri

Python ile Veri Temizleme

Kurs planı

yan_etkiler

Python ile Veri Temizleme

Kurs planı

temiz_veri

Python ile Veri Temizleme

Kurs planı

temiz_veri

Bölüm 1 - Yaygın veri sorunları

Python ile Veri Temizleme

Neden veriyi temizlemeliyiz?

ds_workflow

Python ile Veri Temizleme

Neden veriyi temizlemeliyiz?

ds_workflow

Python ile Veri Temizleme

Neden veriyi temizlemeliyiz?

                                                                                   Çöp girerse çöp çıkar

Python ile Veri Temizleme

Veri türü kısıtları

Veri türü Örnek
Metin Ad, soyad, adres ...
Tamsayı Abone sayısı, satılan ürün sayısı ...
Ondalık Sıcaklık, $ kur değerleri ...
İkili Evli mi, yeni müşteri, evet/hayır ...
Tarihler Sipariş tarihi, sevk tarihi ...
Kategoriler Medeni hâl, cinsiyet ...
Python veri tipi
str
int
float
bool
datetime
category
Python ile Veri Temizleme

Dizelerden tamsayılara

# CSV dosyasını içe aktar ve başlığı yazdır
sales = pd.read_csv('sales.csv')
sales.head(2)
   SalesOrderID    Revenue    Quantity
0         43659     23153$          12
1         43660      1457$           2
# Sütunların veri tiplerini al
sales.dtypes
SalesOrderID    int64
Revenue         object
Quantity        int64
dtype: object
Python ile Veri Temizleme

Dizeden tamsayıya

# DataFrame bilgisini al
sales.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31465 entries, 0 to 31464
Data columns (total 3 columns):
SalesOrderID     31465 non-null int64
Revenue          31465 non-null object
Quantity         31465 non-null int64
dtypes: int64(2), object(1)
memory usage: 737.5+ KB
Python ile Veri Temizleme

Dizeden tamsayıya

# Revenue sütununun toplamını yazdır
sales['Revenue'].sum()
'23153$1457$36865$32474$472$27510$16158$5694$6876$40487$807$6893$9153$6895$4216..
# Revenue sütunundan $ işaretini kaldır
sales['Revenue'] = sales['Revenue'].str.strip('$')
sales['Revenue'] = sales['Revenue'].astype('int')
# Revenue artık tamsayı mı, doğrula
assert sales['Revenue'].dtype == 'int'
Python ile Veri Temizleme

assert deyimi

# Bu geçer
assert 1+1 == 2
# Bu geçmez
assert 1+1 == 3
AssertionError                            Traceback (most recent call last)
         assert 1+1 == 3
AssertionError:
Python ile Veri Temizleme

Sayısal mı kategorik mi?

...   marriage_status    ...
...                 3    ...
...                 1    ...
...                 2    ...

0 = Hiç evlenmedi       1 = Evli       2 = Ayrı       3 = Boşanmış

df['marriage_status'].describe()
       marriage_status
...
mean              1.4
std               0.20
min               0.00
50%               1.8 ...
Python ile Veri Temizleme

Sayısal mı kategorik mi?

# Kategoriğe dönüştür
df["marriage_status"] = df["marriage_status"].astype('category')

df.describe()
        marriage_status
count                 241
unique                4
top                   1
freq                  120
Python ile Veri Temizleme

Haydi pratik yapalım!

Python ile Veri Temizleme

Preparing Video For Download...