Validasi lintas kolom

Membersihkan Data di Python

Adel Nehme

VP of AI Curriculum, DataCamp

Motivasi

import pandas as pd

flights = pd.read_csv('flights.csv')
flights.head()
  flight_number  economy_class  business_class  first_class  total_passengers
0         DL140            100              60           40               200
1         BA248            130             100           70               300
2        MEA124            100              50           50               200
3        AFR939            140              70           90               300
4        TKA101            130             100           20               250
Membersihkan Data di Python

Validasi lintas kolom

Menggunakan beberapa kolom dalam data untuk memeriksa konsistensi integritas

  flight_number  economy_class  business_class  first_class  total_passengers
0         DL140            100       +      60      +    40        =      200
1         BA248            130       +     100      +    70        =      300
2        MEA124            100       +      50      +    50        =      200
3        AFR939            140       +      70      +    90        =      300
4        TKA101            130       +     100      +    20        =      250
sum_classes = flights[['economy_class', 'business_class', 'first_class']].sum(axis = 1)

passenger_equ = sum_classes == flights['total_passengers']
# Temukan dan saring baris dengan total penumpang tidak konsisten inconsistent_pass = flights[~passenger_equ] consistent_pass = flights[passenger_equ]
Membersihkan Data di Python

Validasi lintas kolom

users.head()
   user_id  Age   Birthday
0    32985   22 1998-03-02
1    94387   27 1993-12-04
2    34236   42 1978-11-24
3    12551   31 1989-01-03
4    55212   18 2002-07-02
Membersihkan Data di Python

Validasi lintas kolom

import pandas as pd
import datetime as dt

# Ubah ke datetime dan ambil tanggal hari ini
users['Birthday'] = pd.to_datetime(users['Birthday'])

today = dt.date.today()
# Untuk tiap baris Birthday, hitung selisih tahun age_manual = today.year - users['Birthday'].dt.year
# Temukan kasus saat umur cocok age_equ = age_manual == users['Age']
# Temukan dan saring baris dengan umur tidak konsisten inconsistent_age = users[~age_equ] consistent_age = users[age_equ]
Membersihkan Data di Python

Apa yang dilakukan saat menemukan inkonsistensi?

Membersihkan Data di Python

Ayo berlatih!

Membersihkan Data di Python

Preparing Video For Download...