Bütünlüğü doğrulama

pandas ile Verileri Birleştirme

Aaren Stubberfield

Instructor

Veriyi denetleyelim

Olası birleştirme sorunu:

Bir-birçok ilişkiyle yatayca birleştirilmiş iki DataFrame

  • İstemeden birden-çoğa ilişki
  • İstemeden çoka-çok ilişki

Olası birleştirme (concatenate) sorunu:

İkinci DataFrame'de yinelenen satırla dikey birleştirilmiş iki DataFrame

  • Yanlışlıkla yinelenen kayıtlar eklenmiş olabilir
pandas ile Verileri Birleştirme

Birleştirmeleri doğrulama

.merge(validate=None):

  • Birleştirmenin belirtilen türde olup olmadığını denetler
  • 'one_to_one'
  • 'one_to_many'
  • 'many_to_one'
  • 'many_to_many'
pandas ile Verileri Birleştirme

Örnek için birleştirme veri kümesi

Tablo adı: tracks

  tid  name             aid  mtid  gid  u_price
0 2    Balls to the...  2    2     1    0.99   
1 3    Fast As a Shark  3    2     1    0.99   
2 4    Restless and...  3    2     1    0.99   

Tablo adı: specs

  tid  milliseconds  bytes  
0 2    342562        5510424
1 3    230619        3990994
2 2    252051        4331779
pandas ile Verileri Birleştirme

Birleştirme doğrulama: one_to_one

tracks.merge(specs, on='tid', 
             validate='one_to_one')
Traceback (most recent call last):
MergeError: Merge keys are not unique in right dataset; not a one-to-one merge
pandas ile Verileri Birleştirme

Birleştirme doğrulama: one_to_many

albums.merge(tracks, on='aid', 
             validate='one_to_many')
  aid  title            artid  tid  name             mtid  gid  u_price
0 2    Balls to the...  2      2    Balls to the...  2     1    0.99   
1 3    Restless and...  2      3    Fast As a Shark  2     1    0.99   
2 3    Restless and...  2      4    Restless and...  2     1    0.99   
pandas ile Verileri Birleştirme

Birleştirmeleri doğrulama

.concat(verify_integrity=False):

  • Yeni birleştirilen indeksin yinelenen içerip içermediğini denetler
  • Varsayılan değer False
pandas ile Verileri Birleştirme

.concat() örneği için veri kümesi

Tablo adı: inv_feb

     cid  invoice_date  total
iid 
7    38   2009-02-01    1.98 
8    40   2009-02-01    1.98 
9    42   2009-02-02    3.96 

Tablo adı: inv_mar

     cid  invoice_date  total
iid 
9    17   2009-03-04    1.98 
15   19   2009-03-04    1.98 
16   21   2009-03-05    3.96 
pandas ile Verileri Birleştirme

Birleştirmeyi doğrulama: örnek

pd.concat([inv_feb, inv_mar], 
          verify_integrity=True)
Traceback (most recent call last):
ValueError: Indexes have overlapping 
values: Int64Index([9], dtype='int64', 
name='iid')
pd.concat([inv_feb, inv_mar], 
          verify_integrity=False)
     cid  invoice_date  total
iid 
7    38   2009-02-01    1.98 
8    40   2009-02-01    1.98 
9    42   2009-02-02    3.96 
9    17   2009-03-04    1.98 
15   19   2009-03-04    1.98 
16   21   2009-03-05    3.96
pandas ile Verileri Birleştirme

Neden bütünlüğü doğrulamalı ve ne yapmalı

Neden:

  • Gerçek dünya verisi sıklıkla temiz değildir

Ne yapmalı:

  • Hatalı veriyi düzeltin
  • Yinelenen satırları kaldırın
pandas ile Verileri Birleştirme

Haydi pratik yapalım!

pandas ile Verileri Birleştirme

Preparing Video For Download...