Veri tipi kısıtları

R ile Veri Temizleme

Maggie Matsui

Content Developer @ DataCamp

Kurs özeti

Büyüteçli sunucu ve "kirli veriyi teşhis et"

R ile Veri Temizleme

Kurs özeti

Böcek simgesi olan sunucu ve "kirli verinin yan etkileri"

R ile Veri Temizleme

Kurs özeti

Parlak ve süpürgeli yuvarlak veritabanı, temiz veri için

R ile Veri Temizleme

Kurs özeti

Kirli veriyi teşhis etme, yan etkileri ve temizleme

Bölüm 1 - Yaygın veri sorunları

R ile Veri Temizleme

Neden temiz veriye ihtiyaç duyarız?

 

Veri bilimi iş akışı: veriye eriş, veriyi keşfet ve işle, içgörü çıkar, içgörüleri raporla

R ile Veri Temizleme

Neden temiz veriye ihtiyaç duyarız?

 

İnsan ve teknik hata

R ile Veri Temizleme

Neden temiz veriye ihtiyaç duyarız?

 

Hatalar iş akışında yayılır

R ile Veri Temizleme

Veri tipi kısıtları

Veri tipi Örnek
Metin Ad, soyad, adres, ...
Tamsayı Abone sayısı, satılan ürün #, ...
Ondalık Sıcaklık, döviz kuru, ...
İkili Evli mi, yeni müşteri, evet/hayır, ...
Kategori Medeni durum, renk, ...
Tarih Sipariş tarihi, doğum tarihi, ...
R veri tipi
character
integer
numeric
logical
factor
Date
R ile Veri Temizleme

Veri tiplerine bakış

sales <- read.csv("sales.csv")
head(sales)
  order_id revenue quantity
1     7432   5,454      494
2     7808   5,668      334
3     4893   4,062      259
4     6107   3,936       15
5     7661   1,067      307
6     5908   6,635      235
library(dplyr)
glimpse(sales)
Observations: 100
Variables: 3
$ order_id <dbl> 7432, 7808, ...
$ revenue  <chr> "$5454", "$5668", ...
$ quantity <dbl> 494, 334, ...
R ile Veri Temizleme

Veri tiplerini kontrol etme

is.numeric(sales$revenue)
FALSE
library(assertive)
assert_is_numeric(sales$revenue)
Error: is_numeric : sales$revenue is not of class 'numeric'; it has class 'character'.
assert_is_numeric(sales$quantity)


R ile Veri Temizleme

Veri tiplerini kontrol etme

Mantıksal kontrol - TRUE/FALSE döndürür

  • is.character()
  • is.numeric()
  • is.logical()
  • is.factor()
  • is.Date()
  • ...

assertive ile kontrol - FALSE ise hata verir

  • assert_is_character()
  • assert_is_numeric()
  • assert_is_logical()
  • assert_is_factor()
  • assert_is_date()
  • ...
R ile Veri Temizleme

Veri tipi neden önemlidir?

class(sales$revenue)
"character"
mean(sales$revenue)
NA
Warning message:
In mean.default(sales$revenue) :
  argument is not numeric or logical: returning NA
R ile Veri Temizleme

Virgül sorunları

sales$revenue
"5,454" "5,668" "4,062" "3,936" "1,067" ...

R ile Veri Temizleme

Karakterden sayıya

library(stringr)
revenue_trimmed = str_remove(sales$revenue, ",")

revenue_trimmed
"5454" "5668" "4062" "3936" "1067" ...
as.numeric(revenue_trimmed)
5454 5668 4062 3936 1067 ...
R ile Veri Temizleme

Birleştirme

sales %>%
  mutate(revenue_usd = as.numeric(str_remove(revenue, ",")))
# A tibble: 100 x 4
   order_id revenue quantity revenue_usd
      <dbl> <chr>      <dbl>       <dbl>
 1     7432 5,454        494        5454
 2     7808 5,668        334        5668
 3     4893 4,062        259        4062
 4     6107 3,936         15        3936
 5     7661 1,067        307        1067
# ... with 95 more rows
R ile Veri Temizleme

Aynı fonksiyon, farklı sonuçlar

mean(sales$revenue)
NA
Warning message:
In mean.default(sales$revenue) :
  argument is not numeric or logical: returning NA
mean(sales$revenue_usd)
5361.4
R ile Veri Temizleme

Veri tiplerini dönüştürme

  • as.character()
  • as.numeric()
  • as.logical()
  • as.factor()
  • as.Date()
  • ...
R ile Veri Temizleme

Dikkat: factor'den numeric'e

product_type
1000 1000 3000 2000 3000
Levels: 1000 2000 3000
class(product_type)
"factor"
as.numeric(product_type)
1 1 3 2 3
as.numeric(as.character(product_type))
1000 1000 3000 2000 3000
R ile Veri Temizleme

Ayo berlatih!

R ile Veri Temizleme

Preparing Video For Download...