Joinen op sleutelkolommen

Pandas-joins voor spreadsheetgebruikers

John Miller

Principal Data Scientist

Framework (vervolg)

$$

Na het bekijken en begrijpen van de data:

  • Bepaal de relatie
  • Controleer op unieke waarden in de sleutelkolom

vierkanten

Pandas-joins voor spreadsheetgebruikers

Unieke sleutelkolommen

$$ $$ Unieke waarden voor enkelkoloms sleutel

df.duplicated('GameKey').sum()

$$ -- -- Een waarde van 0 betekent geen duplicaten -- --

df.duplicated(['GameKey', 'PlayId']).sum()

enkelkoloms index

multikolom-index

Pandas-joins voor spreadsheetgebruikers

Framework (vervolg)

$$

Na het bekijken en begrijpen van de data:

  • Bepaal de relatie
  • Controleer op unieke waarden in de sleutelkolom
  • Schrijf de merge-statement en voer uit

vierkanten

Pandas-joins voor spreadsheetgebruikers

De merge uitvoeren

$$

De statement is hetzelfde!

df1.merge(df2, how='inner', on='')

  • Let op de parameters

$$

Volledige syntax: DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), indicator=False, validate=None)

Pandas-joins voor spreadsheetgebruikers

Merges valideren

DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), indicator=False, validate=None)

$$

Waarden voor validate:

  • "one_to_one" of "1:1"
  • "one_to_many" of "1:m"
  • "many_to_one" of "m:1"
  • "many_to_many" of "m:m" (doet niets)
Pandas-joins voor spreadsheetgebruikers

Laten we oefenen!

Pandas-joins voor spreadsheetgebruikers

Preparing Video For Download...