Dizgiler arasındaki benzerliği karşılaştırma

SQL Server Veritabanlarında Veri Temizleme

Miriam Antona

Software Engineer

Sorunun tanımı

  • Dağınık dizgiler
| airport_state |
|---------------|
| Caalifornia   |
| California    |
| Californiaa   |
| Illinois      |
| Ilynois       |
| Tejas         |
| Texas         |
SOUNDEX
DIFFERENCE
SQL Server Veritabanlarında Veri Temizleme

SOUNDEX

SOUNDEX ( character_expression ) 
  • Fonetik algoritma
  • Dört karakterli bir kod döndürür
  • İngilizceye dayalıdır, ancak diğer dillerdeki birçok kelimeyle de çalışır
SELECT SOUNDEX('Illinois') AS soundex_code1;
SELECT SOUNDEX('Ilynois') AS soundex_code2;
SELECT SOUNDEX('California') AS soundex_code3;
| soundex_code1 |   | soundex_code2 |   | soundex_code3 |
|---------------|   |---------------|   |---------------|
| I452          |   | I452          |   | I416          |
SQL Server Veritabanlarında Veri Temizleme

SOUNDEX - nasıl çalışır

Örnek: "Illinois"
  • Kelimenin ilk harfini yazar
  • İlk harften sonra seslileri ve "h", "w", "y" harflerini sıfıra (0) dönüştürür

 

"Illinois" -> I

"Illinois" -> Ill0n00s

SQL Server Veritabanlarında Veri Temizleme

SOUNDEX - nasıl çalışır

Örnek: "Illinois"
  • İlk harften sonraki ünsüzleri dönüştürür
SQL Server Veritabanlarında Veri Temizleme

SOUNDEX - nasıl çalışır

Örnek: "Illinois"
  • İlk harften sonraki ünsüzleri dönüştürür
Harfler Temsil edilen
b, f, p, v 1
c, g, j, k, q, s, x, z 2
d, t 3
l 4
m, n 5
r 6

 

"Ill0n00s" -> I4405002

SQL Server Veritabanlarında Veri Temizleme

SOUNDEX - nasıl çalışır

  • Aynı bitişik rakamları tekine indirger
  • Tüm sıfırları (0) kaldırır
  • Harfin rakamı ilk rakamla aynıysa ilk rakamı kaldırır
  • Kod 3 rakamdan azsa sonuna sıfır ekler
  • Kod 3 rakamdan fazlaysa son rakamları kaldırır

"I4405002" -> I40502

"I40502" -> I452

 

"I452" (uygulamayın)

SQL Server Veritabanlarında Veri Temizleme

SOUNDEX - İstisnalar

SELECT SOUNDEX('Arizona') AS soundex_code1;
SELECT SOUNDEX('Arkansas') AS soundex_code2;
| soundex_code1 |   | soundex_code2 |
|---------------|   |---------------|
| A625          |   | A625          |
SQL Server Veritabanlarında Veri Temizleme

SOUNDEX - benzerlikleri kontrol etme

SELECT DISTINCT A1.airport_state
FROM airports A1 
INNER JOIN airports A2 
    ON SOUNDEX(A1.airport_state) = SOUNDEX(A2.airport_state)
    AND A1.airport_state <> A2.airport_state
| airport_state |
|---------------|
| Caalifornia   |
| California    |
| Californiaa   |
| Illinois      |
| Ilynois       |
| New Jersey    |
| New York      |
| Tejas         |
| Texas         |
SQL Server Veritabanlarında Veri Temizleme

SOUNDEX - benzerlikleri kontrol etme

SELECT DISTINCT A1.airport_state
FROM airports A1 
INNER JOIN airports A2 
    ON SOUNDEX(REPLACE(A1.airport_state, ' ', '')) = SOUNDEX(REPLACE(A2.airport_state, ' ', ''))
    AND A1.airport_state <> A2.airport_state

"New York" -> "NewYork"

| airport_state |
|---------------|
| Caalifornia   |
| California    |
| Californiaa   |
| Illinois      |
| Ilynois       |
| Tejas         |
| Texas         |
SQL Server Veritabanlarında Veri Temizleme

DIFFERENCE

DIFFERENCE ( character_expression , character_expression )  
  • İki SOUNDEX değerini karşılaştırır
  • 0 ile 4 arasında bir değer döndürür
    • 0 -> az ya da hiç benzerlik yok
    • 4 -> çok benzer veya birebir eşleşme
SQL Server Veritabanlarında Veri Temizleme

DIFFERENCE

SELECT DIFFERENCE('Illinois', 'Ilynois') AS dif_1;
| dif1 |
|------|
|  4   |
SELECT DIFFERENCE('Illinois', 'California') AS dif_2;
| dif2 |
|------|
| 1    |
SQL Server Veritabanlarında Veri Temizleme

DIFFERENCE - benzerlikleri kontrol etme

SELECT DISTINCT A1.airport_state, A2.airport_state
FROM airports A1 
INNER JOIN airports A2 
    ON DIFFERENCE(REPLACE(A1.airport_state, ' ', ''), REPLACE(A2.airport_state, ' ', '')) = 4
    AND A1.airport_state <> A2.airport_state
| airport_state | airport_state |
|---------------|---------------|
| Caalifornia   | California    |
| Caalifornia   | Californiaa   |
| California    | Caalifornia   |
| California    | Californiaa   |
| Californiaa   | Caalifornia   |
| Californiaa   | California    |
| Illinois      | Ilynois       |
| Ilynois       | Illinois      |
| Massachusetts | Michigan      |
| Tejas         | Texas         |
| Texas         | Tejas         |
SQL Server Veritabanlarında Veri Temizleme

Hadi pratik yapalım!

SQL Server Veritabanlarında Veri Temizleme

Preparing Video For Download...