Kendala tipe data

Membersihkan Data di Python

Adel Nehme

VP of AI Curriculum, DataCamp

Garis besar kursus

data kotor

Membersihkan Data di Python

Garis besar kursus

efek samping

Membersihkan Data di Python

Garis besar kursus

data bersih

Membersihkan Data di Python

Garis besar kursus

data bersih

Bab 1 - Masalah data umum

Membersihkan Data di Python

Mengapa data perlu dibersihkan?

alur ds

Membersihkan Data di Python

Mengapa data perlu dibersihkan?

alur ds

Membersihkan Data di Python

Mengapa data perlu dibersihkan?

                                                                                   Masuk sampah, keluar sampah

Membersihkan Data di Python

Kendala tipe data

Jenis data Contoh
Teks Nama depan, nama belakang, alamat ...
Integer # pelanggan, # produk terjual ...
Desimal Suhu, kurs $ ...
Biner Sudah menikah, pelanggan baru, ya/tidak, ...
Tanggal Tanggal pesanan, tanggal kirim ...
Kategori Status pernikahan, gender ...
Tipe data Python
str
int
float
bool
datetime
category
Membersihkan Data di Python

String ke integer

# Import file CSV dan tampilkan header
sales = pd.read_csv('sales.csv')
sales.head(2)
   SalesOrderID    Revenue    Quantity
0         43659     23153$          12
1         43660      1457$           2
# Dapatkan tipe data kolom
sales.dtypes
SalesOrderID    int64
Revenue         object
Quantity        int64
dtype: object
Membersihkan Data di Python

String ke integer

# Dapatkan info DataFrame
sales.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31465 entries, 0 to 31464
Data columns (total 3 columns):
SalesOrderID     31465 non-null int64
Revenue          31465 non-null object
Quantity         31465 non-null int64
dtypes: int64(2), object(1)
memory usage: 737.5+ KB
Membersihkan Data di Python

String ke integer

# Cetak jumlah semua nilai Revenue
sales['Revenue'].sum()
'23153$1457$36865$32474$472$27510$16158$5694$6876$40487$807$6893$9153$6895$4216..
# Hapus $ dari kolom Revenue
sales['Revenue'] = sales['Revenue'].str.strip('$')
sales['Revenue'] = sales['Revenue'].astype('int')
# Verifikasi bahwa Revenue sekarang integer
assert sales['Revenue'].dtype == 'int'
Membersihkan Data di Python

Pernyataan assert

# Ini akan lolos
assert 1+1 == 2
# Ini tidak akan lolos
assert 1+1 == 3
AssertionError                            Traceback (most recent call last)
         assert 1+1 == 3
AssertionError:
Membersihkan Data di Python

Numerik atau kategorikal?

...   marriage_status    ...
...                 3    ...
...                 1    ...
...                 2    ...

0 = Belum pernah menikah       1 = Menikah       2 = Berpisah       3 = Bercerai

df['marriage_status'].describe()
       marriage_status
...
mean              1.4
std               0.20
min               0.00
50%               1.8 ...
Membersihkan Data di Python

Numerik atau kategorikal?

# Konversi ke kategorikal
df["marriage_status"] = df["marriage_status"].astype('category')

df.describe()
        marriage_status
count                 241
unique                4
top                   1
freq                  120
Membersihkan Data di Python

Ayo berlatih!

Membersihkan Data di Python

Preparing Video For Download...