Kendala tipe data

Membersihkan Data di R

Maggie Matsui

Content Developer @ DataCamp

Rangka kursus

Server dengan kaca pembesar dan "diagnose dirty data"

Membersihkan Data di R

Rangka kursus

Server dengan kumbang bug dan "side effects of dirty data"

Membersihkan Data di R

Rangka kursus

Database bundar dengan sapu dan kilau untuk data bersih

Membersihkan Data di R

Rangka kursus

Mendiagnosis data kotor, efek samping data kotor, dan membersihkan data kotor

Bab 1 - Masalah data umum

Membersihkan Data di R

Mengapa kita butuh data bersih?

 

Alur kerja data science: akses data, jelajah & proses data, ekstrak insight, laporkan insight

Membersihkan Data di R

Mengapa kita butuh data bersih?

 

Kesalahan manusia dan teknis

Membersihkan Data di R

Mengapa kita butuh data bersih?

 

Error menyebar di seluruh workflow

Membersihkan Data di R

Kendala tipe data

Tipe data Contoh
Teks Nama depan, nama belakang, alamat, ...
Integer Jumlah pelanggan, # produk terjual, ...
Desimal Suhu, kurs, ...
Biner Menikah, pelanggan baru, ya/tidak, ...
Kategori Status pernikahan, warna, ...
Tanggal Tanggal pesanan, tanggal lahir, ...
Tipe data R
character
integer
numeric
logical
factor
Date
Membersihkan Data di R

Melihat tipe data sekilas

sales <- read.csv("sales.csv")
head(sales)
  order_id revenue quantity
1     7432   5,454      494
2     7808   5,668      334
3     4893   4,062      259
4     6107   3,936       15
5     7661   1,067      307
6     5908   6,635      235
library(dplyr)
glimpse(sales)
Observations: 100
Variables: 3
$ order_id <dbl> 7432, 7808, ...
$ revenue  <chr> "$5454", "$5668", ...
$ quantity <dbl> 494, 334, ...
Membersihkan Data di R

Memeriksa tipe data

is.numeric(sales$revenue)
FALSE
library(assertive)
assert_is_numeric(sales$revenue)
Error: is_numeric : sales$revenue is not of class 'numeric'; it has class 'character'.
assert_is_numeric(sales$quantity)


Membersihkan Data di R

Memeriksa tipe data

Pemeriksaan logis - menghasilkan TRUE/FALSE

  • is.character()
  • is.numeric()
  • is.logical()
  • is.factor()
  • is.Date()
  • ...

Pemeriksaan assertive - error jika FALSE

  • assert_is_character()
  • assert_is_numeric()
  • assert_is_logical()
  • assert_is_factor()
  • assert_is_date()
  • ...
Membersihkan Data di R

Mengapa tipe data penting?

class(sales$revenue)
"character"
mean(sales$revenue)
NA
Warning message:
In mean.default(sales$revenue) :
  argument is not numeric or logical: returning NA
Membersihkan Data di R

Masalah koma

sales$revenue
"5,454" "5,668" "4,062" "3,936" "1,067" ...

Membersihkan Data di R

Character ke numerik

library(stringr)
revenue_trimmed = str_remove(sales$revenue, ",")

revenue_trimmed
"5454" "5668" "4062" "3936" "1067" ...
as.numeric(revenue_trimmed)
5454 5668 4062 3936 1067 ...
Membersihkan Data di R

Menggabungkannya

sales %>%
  mutate(revenue_usd = as.numeric(str_remove(revenue, ",")))
# A tibble: 100 x 4
   order_id revenue quantity revenue_usd
      <dbl> <chr>      <dbl>       <dbl>
 1     7432 5,454        494        5454
 2     7808 5,668        334        5668
 3     4893 4,062        259        4062
 4     6107 3,936         15        3936
 5     7661 1,067        307        1067
# ... with 95 more rows
Membersihkan Data di R

Fungsi sama, hasil berbeda

mean(sales$revenue)
NA
Warning message:
In mean.default(sales$revenue) :
  argument is not numeric or logical: returning NA
mean(sales$revenue_usd)
5361.4
Membersihkan Data di R

Mengonversi tipe data

  • as.character()
  • as.numeric()
  • as.logical()
  • as.factor()
  • as.Date()
  • ...
Membersihkan Data di R

Hati-hati: factor ke numerik

product_type
1000 1000 3000 2000 3000
Levels: 1000 2000 3000
class(product_type)
"factor"
as.numeric(product_type)
1 1 3 2 3
as.numeric(as.character(product_type))
1000 1000 3000 2000 3000
Membersihkan Data di R

Ayo berlatih!

Membersihkan Data di R

Preparing Video For Download...