Vectorisatie over Pandas-series

Efficiënte code schrijven met pandas

Leonidas Souliotis

PhD Candidate

DataFrames als arrays

GitHub-logo

Efficiënte code schrijven met pandas

Pandas-vectorisatie toepassen

start_time = time.time()
poker[['R1', 'R2', 'R3', 'R4', 'R5']].sum(axis=1)
print("Time using pandas vectorization: {} sec".format(time.time() - start_time))
Time using pandas vectorization: 0.0026819705 sec
poker[['R1', 'R2', 'R3', 'R4', 'R5']].sum(axis=1).head()
|              |    | 
|--------------|----| 
| 0            | 47 | 
| 1            | 47 | 
| 2            | 47 | 
| 3            | 47 | 
| 4            | 47 | 
| dtype: int64 | -- |
Efficiënte code schrijven met pandas

Vergelijking met eerdere methoden

data_generator = data.iterrows()

start_time = time.time()
for index, value in data_generator:
        sum([value[1], value[3], value[5], value[7]])
print("Time using .iterrows(){} seconds" % (time.time() - start_time))
Resultaten van de bovenstaande bewerking berekend in 3.37918996 seconden
start_time = time.time()
data[['R1', 'R2', 'R3', 'R4', 'R5']].apply(lambda x: sum(x),axis=1)
print("Results from the above operation calculated in %s seconds" % (time.time() - start_time))
Resultaten van de bovenstaande bewerking berekend in 0.637711048 seconden
- Verschil tussen vectorisatie en de functie `.iterows()`: 111.800,75%
- Verschil tussen vectorisatie en de functie `.apply()`: 20.853%
Efficiënte code schrijven met pandas

Laten we oefenen!

Efficiënte code schrijven met pandas

Preparing Video For Download...