Filternde Joins

Daten mit pandas verknüpfen

Aaren Stubberfield

Instructor

Mutierende versus filternde Joins

Mutierende Joins:

  • Kombinieren Daten aus zwei Tabellen anhand übereinstimmender Beobachtungen in beiden Tabellen

Filternde Joins:

  • Filtern Beobachtungen aus Tabelle, je nachdem, ob sie mit Beobachtung in anderer Tabelle übereinstimmen oder nicht
Daten mit pandas verknüpfen

Was ist ein Semi-Join?

Tabelle mit einem Semi-Join, bei dem die Ergebnisse aus einer Schnittmenge stammen

Semi-Join

  • Gibt die Schnittmenge zurück, ähnlich wie bei einem inneren Join
  • Gibt nur Spalten aus der linken Tabelle zurück, nicht aus der rechten
  • Keine doppelten Einträge
Daten mit pandas verknüpfen

Musikdatensatz

Bild eines Smartphones mit Kopfhörern

SQLite-Tutorial-Bild

1 Foto von Vlad Bagacian auf Pexels
Daten mit pandas verknüpfen

Beispieldatensätze

  gid  name           
0 1    Rock           
1 2    Jazz           
2 3    Metal          
3 4    Alternative ...
4 5    Rock And Roll  
  tid  name             aid  mtid  gid  composer         u_price
0 1    For Those Ab...  1    1     1    Angus Young,...  0.99   
1 2    Balls to the...  2    2     1    nan              0.99   
2 3    Fast As a Shark  3    2     1    F. Baltes, S...  0.99   
3 4    Restless and...  3    2     1    F. Baltes, R...  0.99   
4 5    Princess of ...  3    2     1    Deaffy & R.A...  0.99
Daten mit pandas verknüpfen

Schritt 1 – Semi-Join

genres_tracks = genres.merge(top_tracks, on='gid')
print(genres_tracks.head())
  gid  name_x  tid   name_y           aid  mtid  composer         u_price
0 1    Rock    2260  Don't Stop M...  185  1     Mercury, Fre...  0.99   
1 1    Rock    2933  Mysterious Ways  232  1     U2               0.99   
2 1    Rock    2618  Speed Of Light   212  1     Billy Duffy/...  0.99   
3 1    Rock    2998  When Love Co...  237  1     Bono/Clayton...  0.99   
4 1    Rock    685   Who'll Stop ...  54   1     J. C. Fogerty    0.99
Daten mit pandas verknüpfen

Schritt 2 – Semi-Join

genres['gid'].isin(genres_tracks['gid'])

Bild mit 2 Spalten mit übereinstimmenden gids

Daten mit pandas verknüpfen

Schritt 2 – Semi-Join

genres['gid'].isin(genres_tracks['gid'])
0     True
1     True
2     True
3     True
4    False
Name: gid, dtype: bool
Daten mit pandas verknüpfen

Schritt 3 – Semi-Join

genres_tracks = genres.merge(top_tracks, on='gid')
top_genres = genres[genres['gid'].isin(genres_tracks['gid'])]
print(top_genres.head())
  gid  name           
0 1    Rock           
1 2    Jazz           
2 3    Metal          
3 4    Alternative & Punk
4 6    Blues
Daten mit pandas verknüpfen

Was ist ein Anti-Join?

Tabelle mit einem Semi-Join, bei dem die Ergebnisse aus der linken Tabelle minus Schnittmenge stammen

Anti-Join:

  • Gibt die linke Tabelle zurück, ohne die Schnittmenge
  • Gibt nur Spalten aus der linken Tabelle zurück, nicht aus der rechten
Daten mit pandas verknüpfen

Schritt 1 – Anti-Join

genres_tracks = genres.merge(top_tracks, on='gid', how='left', indicator=True)
print(genres_tracks.head())
  gid  name_x           tid     name_y           aid    mtid  composer         u_price  _merge   
0 1    Rock             2260.0  Don't Stop M...  185.0  1.0   Mercury, Fre...  0.99     both  
1 1    Rock             2933.0  Mysterious Ways  232.0  1.0   U2               0.99     both  
2 1    Rock             2618.0  Speed Of Light   212.0  1.0   Billy Duffy/...  0.99     both  
3 1    Rock             2998.0  When Love Co...  237.0  1.0   Bono/Clayton...  0.99     both 
4 5    Rock And Roll    NaN     NaN              NaN    NaN   NaN              NaN      left_only
Daten mit pandas verknüpfen

Schritt 2 – Anti-Join

gid_list = genres_tracks.loc[genres_tracks['_merge'] == 'left_only', 'gid']
print(gid_list.head())
23     5
34     9
36    11
37    12
38    13
Name: gid, dtype: int64
Daten mit pandas verknüpfen

Schritt 3 – Anti-Join

genres_tracks = genres.merge(top_tracks, on='gid', how='left', indicator=True)
gid_list = genres_tracks.loc[genres_tracks['_merge'] == 'left_only','gid']
non_top_genres = genres[genres['gid'].isin(gid_list)]

print(non_top_genres.head())
  gid  name          
0 5    Rock And Roll 
1 9    Pop           
2 11   Bossa Nova    
3 12   Easy Listening
4 13   Heavy Metal
Daten mit pandas verknüpfen

Lass uns üben!

Daten mit pandas verknüpfen

Preparing Video For Download...