Python ile Veri Temizleme
Adel Nehme
VP of AI Curriculum, DataCamp







Çöp girerse çöp çıkar
| Veri türü | Örnek |
|---|---|
| Metin | Ad, soyad, adres ... |
| Tamsayı | Abone sayısı, satılan ürün sayısı ... |
| Ondalık | Sıcaklık, $ kur değerleri ... |
| İkili | Evli mi, yeni müşteri, evet/hayır ... |
| Tarihler | Sipariş tarihi, sevk tarihi ... |
| Kategoriler | Medeni hâl, cinsiyet ... |
| Python veri tipi |
|---|
str |
int |
float |
bool |
datetime |
category |
# CSV dosyasını içe aktar ve başlığı yazdır
sales = pd.read_csv('sales.csv')
sales.head(2)
SalesOrderID Revenue Quantity
0 43659 23153$ 12
1 43660 1457$ 2
# Sütunların veri tiplerini al
sales.dtypes
SalesOrderID int64
Revenue object
Quantity int64
dtype: object
# DataFrame bilgisini al
sales.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31465 entries, 0 to 31464
Data columns (total 3 columns):
SalesOrderID 31465 non-null int64
Revenue 31465 non-null object
Quantity 31465 non-null int64
dtypes: int64(2), object(1)
memory usage: 737.5+ KB
# Revenue sütununun toplamını yazdır
sales['Revenue'].sum()
'23153$1457$36865$32474$472$27510$16158$5694$6876$40487$807$6893$9153$6895$4216..
# Revenue sütunundan $ işaretini kaldır
sales['Revenue'] = sales['Revenue'].str.strip('$')
sales['Revenue'] = sales['Revenue'].astype('int')
# Revenue artık tamsayı mı, doğrula
assert sales['Revenue'].dtype == 'int'
# Bu geçer
assert 1+1 == 2
# Bu geçmez
assert 1+1 == 3
AssertionError Traceback (most recent call last)
assert 1+1 == 3
AssertionError:
... marriage_status ...
... 3 ...
... 1 ...
... 2 ...
0 = Hiç evlenmedi 1 = Evli 2 = Ayrı 3 = Boşanmış
df['marriage_status'].describe()
marriage_status
...
mean 1.4
std 0.20
min 0.00
50% 1.8 ...
# Kategoriğe dönüştür df["marriage_status"] = df["marriage_status"].astype('category')df.describe()
marriage_status
count 241
unique 4
top 1
freq 120
Python ile Veri Temizleme