Veri temizleme

Veri Ambarı Kavramları

Aaren Stubberfield

Data Scientist

Video gündemi

  • Veri biçimi revizyonu
  • Adres ayrıştırma
  • Veri doğrulama
  • Yinelenenleri kaldırma
Veri Ambarı Kavramları

Veri biçimi temizliği

  • Değerleri beklenen biçime güncelleyin
    • Tarihler
    • Seçenek adları
    • Büyük/küçük harf
  • Çıktının tutarlı biçimde olmasını sağlar

Taksi verisi örneği

Bir tabloya birleştirilen iki tablo

Veri Ambarı Kavramları

Adres ayrıştırma

  • Sokak adresini bileşenlerine ayırma
  • Adresleri doğrulamak için araçlar kullanılabilir
Adres
1234 S Normal St, Cleveland, OH 44102
Adres Şehir Eyalet Posta Kodu
1234 S Normal St Cleveland OH 44102
Veri Ambarı Kavramları

Veri doğrulama

  • Aralık kontrolü
    • Değer beklenen aralıkta mı?
    • Örnek: Bir kişinin yaşı
  • Tür kontrolü
    • Değer doğru veri türünde mi?
    • Örnek: Yaşın metin yerine sayı olarak saklanması

Yaş tablosunda ilk satır 300 olarak listelenmiş ve geçersiz olarak işaretlenmiş.

Üç sütunlu tabloda ilk sütun Yaş ve veri türü metin olarak belirtilmiş; geçersiz olarak işaretlenmiş.

Veri Ambarı Kavramları

Çift satırları kaldırma

  • Bu süreç yinelenen kayıtları kaldırır

Birleştirilecek iki sütunlu iki tablo görseli

Yinelenen satırı olmayan son birleştirilmiş tablo

Veri Ambarı Kavramları

Veri yönetişimi

Mevzuata uyum görseli

Veri Ambarı Kavramları

Haydi pratik yapalım!

Veri Ambarı Kavramları

Preparing Video For Download...