Join su colonne chiave

Join con pandas per chi usa i fogli di calcolo

John Miller

Principal Data Scientist

Framework (continua)

$$

Dopo aver esaminato e capito i dati:

  • Determina la relazione
  • Verifica i valori univoci nella colonna chiave

quadrati

Join con pandas per chi usa i fogli di calcolo

Colonne chiave univoche

$$ $$ Valori univoci per chiave a singola colonna

df.duplicated('GameKey').sum()

$$ -- -- -- Un valore di 0 indica nessun duplicato -- -- --

df.duplicated(['GameKey', 'PlayId').sum()

indice a singola colonna

indice multi-colonna

Join con pandas per chi usa i fogli di calcolo

Framework (continua)

$$

Dopo aver esaminato e capito i dati:

  • Determina la relazione
  • Verifica i valori univoci nella colonna chiave
  • Scrivi l'istruzione di merge ed eseguila

quadrati

Join con pandas per chi usa i fogli di calcolo

Eseguire il merge

$$

L'istruzione è la stessa!

df1.merge(df2, how='inner', on='')

  • Fai attenzione ai parametri

$$

Sintassi completa: DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

Join con pandas per chi usa i fogli di calcolo

Validare i merge

DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

$$

Valori per validate:

  • “one_to_one” o “1:1”
  • “one_to_many” o “1:m”
  • “many_to_one” o “m:1”
  • “many_to_many” o “m:m” (non fa nulla)
Join con pandas per chi usa i fogli di calcolo

Passons à la pratique !

Join con pandas per chi usa i fogli di calcolo

Preparing Video For Download...