Omgaan met missende data

Data herstructureren met pandas

Maria Eugenia Inzaugarat

Data Scientist

Herhaling

  • DataFrames stacken en unstacken:
    • Alle kolommen indexniveaus
    • Eén rijniveau
    • Kies welke niveaus je stackt of unstackt
Data herstructureren met pandas

Unstacken leidt tot missende waarden

Subgroepen hebben niet dezelfde set labels

animals
                                jump  run  fly
class    order         name                   
Mammalia carnivora     dog        No  Yes   No
         Diprotodontia Kangaroo  Yes   No   No
Aves     hervibora     bird       No   No  Yes
Data herstructureren met pandas

Unstacken leidt tot missende waarden

Subgroepen hebben niet dezelfde set labels

animals
                                jump  run  fly
class    order         name                   
   Mammalia carnivora     dog        No  Yes   No <--
         Diprotodontia Kangaroo  Yes   No   No
Aves     hervibora     bird       No   No  Yes
Data herstructureren met pandas

Unstacken leidt tot missende waarden

Subgroepen hebben niet dezelfde set labels

animals.unstack(level='class')
                                 jump            run           fly         
        clas             Aves Mammalia Aves Mammalia Aves Mammalia
        order       name                                              
  Diprotodontia Kangaroo  NaN      Yes  NaN       No  NaN       No
      carnivora      Dog  NaN       No  NaN      Yes  NaN       No
Charadriiformes   Avocet   No      NaN   No      NaN  Yes      NaN
Data herstructureren met pandas

Unstacken leidt tot missende waarden

Subgroepen hebben niet dezelfde set labels

animals.unstack(level='class')
                                 jump            run           fly         
        clas             Aves Mammalia Aves Mammalia Aves Mammalia
        order       name                                              
  Diprotodontia Kangaroo  NaN      Yes  NaN       No  NaN       No
  -----------------------------
      carnivora      Dog  NaN <--  No   NaN      Yes  NaN       No
  -----------------------------
Charadriiformes   Avocet   No      NaN   No      NaN  Yes      NaN
Data herstructureren met pandas

NaN afhandelen met unstack

animals.unstack(level='class', fill_value=    )
Data herstructureren met pandas

NaN afhandelen met unstack

animals.unstack(level='class', fill_value='No')
Data herstructureren met pandas

NaN afhandelen met unstack

animals.unstack(level='class', fill_value='No').sort_index(level=['order', 'name'], ascending=[True, False])
                                 jump            run           fly         
        clas             Aves Mammalia Aves Mammalia Aves Mammalia
        order       name                                              
  Diprotodontia Kangaroo   No      Yes   No       No   No       No
      carnivora      Dog   No       No   No      Yes   No       No
Charadriiformes   Avocet   No       No   No       No  Yes       No
Data herstructureren met pandas

Stack en missende waarden

Combinaties van index- en kolomwaarden die ontbreken in de oorspronkelijke DataFrame

flowers
     petals Stigma
     number   size
rose     40    NaN
Lily      8      5
Data herstructureren met pandas

Stack en missende waarden

Combinaties van index- en kolomwaarden die ontbreken in de oorspronkelijke DataFrame

flowers.stack()
            Stigma  petals
rose number    NaN    40.0
Lily number    NaN     8.0
       size      5     NaN
Data herstructureren met pandas

Stack en missende waarden

Combinaties van index- en kolomwaarden die ontbreken in de oorspronkelijke DataFrame

flowers.stack(dropna=True)
            Stigma  petals
rose number    NaN    40.0
Lily number    NaN     8.0
       size      5     NaN
Data herstructureren met pandas

Stack en missende waarden

Combinaties van index- en kolomwaarden die ontbreken in de oorspronkelijke DataFrame

flowers.stack(dropna=False)
            Stigma  petals
rose number    NaN    40.0
         size    NaN     NaN <--
Lily number    NaN     8.0
       size      5     NaN
Data herstructureren met pandas

NaN afhandelen met stack

flowers.stack(dropna=False).fillna(0)
            Stigma  petals
rose number      0    40.0
       size      0       0
Lily number      0     8.0
       size      5       0
Data herstructureren met pandas

Laten we oefenen!

Data herstructureren met pandas

Preparing Video For Download...