Joinen op sleutelkolommen

Pandas-joins voor spreadsheetgebruikers

John Miller

Principal Data Scientist

Stappenplan (vervolg)

$$

Na het bekijken en begrijpen van de data:

  • Bepaal de relatie
  • Check op unieke waarden in de sleutelkolom

vierkanten

Pandas-joins voor spreadsheetgebruikers

Unieke sleutelkolommen

$$ $$ Unieke waarden voor enkelvoudige sleutelkast

df.duplicated('GameKey').sum()

$$ -- -- -- Een waarde van 0 betekent geen duplicaten -- -- --

df.duplicated(['GameKey', 'PlayId').sum()

index met één kolom

index met meerdere kolommen

Pandas-joins voor spreadsheetgebruikers

Stappenplan (vervolg)

$$

Na het bekijken en begrijpen van de data:

  • Bepaal de relatie
  • Check op unieke waarden in de sleutelkolom
  • Schrijf de merge en voer uit

vierkanten

Pandas-joins voor spreadsheetgebruikers

De merge uitvoeren

$$

Het statement blijft hetzelfde!

df1.merge(df2, how='inner', on='')

  • Let op de parameters

$$

Volledige syntax: DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

Pandas-joins voor spreadsheetgebruikers

Merges valideren

DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

$$

Waarden voor validate:

  • “one_to_one” of “1:1”
  • “one_to_many” of “1:m”
  • “many_to_one” of “m:1”
  • “many_to_many” of “m:m” (doet niks)
Pandas-joins voor spreadsheetgebruikers

Laten we oefenen!

Pandas-joins voor spreadsheetgebruikers

Preparing Video For Download...