Gegevens filteren met de functie filter()

Efficiënte code schrijven met pandas

Leonidas Souliotis

PhD Candidate

Doel van filter()

Beperk resultaten op een aggregaatkenmerk

Aantal missende waarden
Gemiddelde van een specifiek kenmerk
Aantal voorkomens van de groep

Filteren met groupby().filter()

restaurant_grouped = restaurant.groupby('day')
filter_trans = lambda x : x['total_bill'].mean() > 20
restaurant_filtered = restaurant_grouped.filter(filter_trans)

Tijd met .filter() 0.00414085388184 sec

print(restaurant_filtered['tip'].mean())

3.11527607362

print(restaurant['tip'].mean())

2.9982786885245902

Vergelijking met native methoden

t=[restaurant.loc[df['day'] == i]['tip'] for i in restaurant['day'].unique() 
    if restaurant.loc[df['day'] == i]['total_bill'].mean()>20]
restaurant_filtered = t[0]
for j in t[1:]: 
    restaurant_filtered=restaurant_filtered.append(j,ignore_index=True)

Tijd met native Python: 0.00663900375366 sec

print(restaurant_filtered.mean())

3.11527607362

Tijdsverschil: 60.329341317157024%

Laten we oefenen!

Efficiënte code schrijven met pandas