Veri Temizlemeye Giriş

SQL Server Veritabanlarında Veri Temizleme

Miriam Antona

Software Engineer

Kapsam

  • Bölüm 1: Veri temizliğine başlama
  • Bölüm 2: Null’lar, yinelenen veriler ve tarihler
  • Bölüm 3: Aralık dışı değerler, veri tipleri ve desen eşleme
  • Bölüm 4: Veriyi birleştirme, bölme ve dönüştürme
SQL Server Veritabanlarında Veri Temizleme

Veri Kümesi: ABD havaalanlarına göre aylık uçuşlar 2014-2015

airports

| airport_code | airport_name                              | airport_city      | airport_state |
|--------------|-------------------------------------------|-------------------|---------------|
| MSP          |  Minneapolis-St Paul International        | Minneapolis       | Minnesota     |
| JFK          |  John F. Kennedy International            | New York City     | New York      |
| LAX          |  Los Angeles International                | Los Angeles       | California    |
| DFW          |       Dallas/Fort Worth International     | Dallas/Fort Worth | Texas         |
| BOS          | Logan International                       | Boston            | Massachusetts |
| SFO          |  San Francisco International              | San Francisco     | Californiaa   |
| ATL          |  Hartsfield-Jackson Atlanta International | Atlanta           | Georgia       |
| ...          | ...                                       | ...               | ...           |
SQL Server Veritabanlarında Veri Temizleme

Veri Kümesi: ABD havaalanlarına göre aylık uçuşlar 2014-2015

carriers

| code | name                            |
|------|---------------------------------|
| YV   | Mesa Airlines Inc.              |
| AA   |   American Airlines Inc.        |
| DL   |   Delta Air Lines Inc.          |
| HA   |   Hawaiian Airlines Inc.        |
| MQ   |   American Eagle Airlines Inc.  |
| EV   |  ExpressJet Airlines Inc.       |
| ...  | ...                             |
SQL Server Veritabanlarında Veri Temizleme

Veri Kümesi: ABD havaalanlarına göre aylık uçuşlar 2014-2015

flight statistics

| registration_code | airport_code | carrier_code | canceled | on_time | delayed | ... |
|-------------------|--------------|--------------|----------|---------|---------|-----|
| ...               | ...          | ...          | ...      | ...     | ...     | ... |
| 000000119         | JFK          | AA           | 74       | 819     | 233     | ... |
| 120               | JFK          | B6           | 438      | 1865    | 1010    | ... |
| 000000121         | JFK          | HA           | 0        | 25      | 3       | ... |
| 122               | JFK          | MQ           | 102      | 386     | 159     | ... |
| 000000124         | JFK          | UA           | 22       | 296     | 88      | ... |
| 000000125         | JFK          | US           | 15       | 191     | 63      | ... |
| 000000126         | JFK          | VX           | 12       | 225     | 61      | ... |
| ...               | ...          | ...          | ...      | ...     | ...     | ... |
SQL Server Veritabanlarında Veri Temizleme

Veri Kümesi: ABD havaalanlarına göre aylık uçuşlar 2014-2015

pilots

| pilot_code | pilot_name | pilot_surname | carrier_code | entry_date |
|------------|------------|---------------|--------------|------------|
| 1          | Thomas     | Peters        | HA           | 2011-10-01 |
| 2          | Hiroki     | Konoe         | MQ           | 2011-01-21 |
| 3          | Arturo     | Montero       | UA           | 2012-12-28 |
| 4          | David      | Captain       | US           | 2000-10-01 |
| 5          | Ainhoa     | Guerrera      | VX           | 2000-10-05 |
| 6          | Alvin      | Andersen      | OO           | 2012-01-15 |
| 7          | William    | Champy        | F9           | 2011-03-15 |
| ...        | ...        | ...           | ...          | ...        |
SQL Server Veritabanlarında Veri Temizleme

Veri temizliği neden önemlidir?

  • Analize hazır olmayan dağınık/kirli veriler sıkça elde edilir
  • Analize kıyasla veriyi temizlemeye çok zaman harcanır
  • Temizleme süreci -> net bilgi
SQL Server Veritabanlarında Veri Temizleme

Başta sıfır ekleyerek sayıları doldurma

SELECT * FROM flight_statistics
| registration_code | airport_code | carrier_code | canceled | on_time | delayed | ... |
|-------------------|--------------|--------------|----------|---------|---------|-----|
| ...               | ...          | ...          | ...      | ...     | ...     | ... |
| 000000119         | JFK          | AA           | 74       | 819     | 233     | ... |
| 120               | JFK          | B6           | 438      | 1865    | 1010    | ... |
| 000000121         | JFK          | HA           | 0        | 25      | 3       | ... |
| 122               | JFK          | MQ           | 102      | 386     | 159     | ... |
| 000000124         | JFK          | UA           | 22       | 296     | 88      | ... |
| 000000125         | JFK          | US           | 15       | 191     | 63      | ... |
| 000000126         | JFK          | VX           | 12       | 225     | 61      | ... |
| ...               | ...          | ...          | ...      | ...     | ...     | ... |
SQL Server Veritabanlarında Veri Temizleme

Başta sıfır ekleyerek sayıları doldurma

GEÇERLİ: 000000128 - 9 haneye kadar

GEÇERSİZ: 128

128 sayısı, 9 haneye tamamlanana kadar başında sıfırlarla.

SQL Server Veritabanlarında Veri Temizleme

Başta sıfır ekleme - REPLICATE ve LEN kullanımı

REPLICATE (string, integer)

Bir dizeyi belirtilen sayıda tekrarlar.

SQL Server Veritabanlarında Veri Temizleme

Başta sıfır ekleme - REPLICATE ve LEN kullanımı

REPLICATE (string, integer)

Bir dizeyi belirtilen sayıda tekrarlar.

REPLICATE('0', 9 - LEN(registration_code))
SQL Server Veritabanlarında Veri Temizleme

Başta sıfır ekleme - REPLICATE ve LEN kullanımı

REPLICATE (string, integer)

Bir dizeyi belirtilen sayıda tekrarlar.

REPLICATE('0', 9 - LEN(registration_code))
-- registration_code: 120 => LEN(120) = 3
REPLICATE('0', 6)
SQL Server Veritabanlarında Veri Temizleme

Başta sıfır ekleme - REPLICATE, LEN kullanımı

+ operatörü

SELECT 
    REPLICATE('0', 9 - LEN(registration_code)) + registration_code AS registration_code
FROM flight_statistics

CONCAT - SQL Server 2012’den beri

SELECT 
    CONCAT(REPLICATE('0', 9 - LEN(registration_code)), registration_code) AS registration_code
FROM flight_statistics
SQL Server Veritabanlarında Veri Temizleme

Başta sıfır ekleme - REPLICATE, LEN ve CONCAT kullanımı

| registration_code |
|-------------------|
| ...               |
| 000000119         |
| 000000120         |
| 000000121         |
| 000000122         |
| 000000123         |
| 000000124         |
| 000000125         |
| 000000126         |
| ...               |
SQL Server Veritabanlarında Veri Temizleme

Başta sıfır ekleme - FORMAT kullanımı

FORMAT (value, format [, culture ] ) 
  • SQL Server 2012’den beri kullanılabilir
  • value: sayısal, tarih ve saat
SELECT 
    FORMAT(CAST(registration_code AS INT), '000000000') AS registration_code
FROM flight_statistics;
SQL Server Veritabanlarında Veri Temizleme

Başta sıfır ekleme - FORMAT kullanımı

| registration_code |
|-------------------|
| ...               |
| 000000119         |
| 000000120         |
| 000000121         |
| 000000122         |
| 000000123         |
| 000000124         |
| 000000125         |
| 000000126         |
| ...               |
SQL Server Veritabanlarında Veri Temizleme

Haydi pratik yapalım!

SQL Server Veritabanlarında Veri Temizleme

Preparing Video For Download...