Gegevens filteren met de functie filter()

Efficiënte code schrijven met pandas

Leonidas Souliotis

PhD Candidate

Doel van filter()

Beperk resultaten op een aggregaatkenmerk

  • Aantal missende waarden
  • Gemiddelde van een specifiek kenmerk
  • Aantal voorkomens van de groep
Efficiënte code schrijven met pandas

Filteren met groupby().filter()

restaurant_grouped = restaurant.groupby('day')
filter_trans = lambda x : x['total_bill'].mean() > 20
restaurant_filtered = restaurant_grouped.filter(filter_trans)
Tijd met .filter() 0.00414085388184 sec
print(restaurant_filtered['tip'].mean())
3.11527607362
print(restaurant['tip'].mean())
2.9982786885245902
Efficiënte code schrijven met pandas

Vergelijking met native methoden

t=[restaurant.loc[df['day'] == i]['tip'] for i in restaurant['day'].unique() 
    if restaurant.loc[df['day'] == i]['total_bill'].mean()>20]
restaurant_filtered = t[0]
for j in t[1:]: 
    restaurant_filtered=restaurant_filtered.append(j,ignore_index=True)
Tijd met native Python: 0.00663900375366 sec
print(restaurant_filtered.mean())
3.11527607362
Tijdsverschil: 60.329341317157024%
Efficiënte code schrijven met pandas

Laten we oefenen!

Efficiënte code schrijven met pandas

Preparing Video For Download...