Introduzione ai DataFrame

Manipolazione dei dati con pandas

Richie Cotton

Data Evangelist at DataCamp

Che senso hanno i panda?

Manipolazione dei dati con pandas

Panoramica del corso

  • Capitolo 1: DataFrame**
    • Ordinamento e suddivisione in sottoinsiemi
    • Creare nuove colonne
  • Capitolo 2: Aggregazione dei dati**
    • Statistiche riassuntive
    • Contare
    • Statistiche riassuntive raggruppate
  • Capitolo 3: Tagliare e indicizzare i dati**

    • Sottogruppi usando il taglio
    • Indici e sottoinsiemi usando gli indici
  • Capitolo 4: Creare e visualizzare i dati**

    • Tracciare
    • Gestione dei dati mancanti
    • Leggere i dati in un DataFrame
Manipolazione dei dati con pandas

pandas è fatto con NumPy e Matplotlib

Un triangolo appoggiato su due rettangoli. Il triangolo è il pacchetto pandas, mentre i rettangoli sono i pacchetti NumPy e matplotlib.

Manipolazione dei dati con pandas

pandas è famoso

L'emoji di un panda, ripetuta centinaia di volte, che rappresenta i tanti utenti di Panda.

1 https://pypistats.org/packages/pandas
Manipolazione dei dati con pandas

Dati rettangolari

name Razza Colore Altezza (cm) Peso (kg) Data di nascita
Bella Labrador Marrone 56 25 2013-07-01
Charlie Barboncino Nero 43 23 2016-09-16
Lucy Chow Chow Marrone 46 22 2014-08-25
Cooper Schnauzer Grigio 49 17 2011-12-11
Max Labrador Nero 59 29 2017-01-20
Stella Chihuahua Tan 18 2 2015-04-20
Bernie San Bernardo Bianco 77 74 2018-02-27
Manipolazione dei dati con pandas

DataFrame di pandas

print(dogs)
      name        breed  color  height_cm  weight_kg date_of_birth
0    Bella     Labrador  Brown         56         24    2013-07-01
1  Charlie       Poodle  Black         43         24    2016-09-16
2     Lucy    Chow Chow  Brown         46         24    2014-08-25
3   Cooper    Schnauzer   Gray         49         17    2011-12-11
4      Max     Labrador  Black         59         29    2017-01-20
5   Stella    Chihuahua    Tan         18          2    2015-04-20
6   Bernie  St. Bernard  White         77         74    2018-02-27
Manipolazione dei dati con pandas

Esplorare un DataFrame: .head()

print(dogs.head())
      name        breed  color  height_cm  weight_kg date_of_birth
0    Bella     Labrador  Brown         56         24    2013-07-01
1  Charlie       Poodle  Black         43         24    2016-09-16
2     Lucy    Chow Chow  Brown         46         24    2014-08-25
3   Cooper    Schnauzer   Gray         49         17    2011-12-11
4      Max     Labrador  Black         59         29    2017-01-20
Manipolazione dei dati con pandas

Esplorare un DataFrame: .info()

print(dogs.info())
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype 
 --  ------         --------------  ----- 
 0   name           7 non-null      object
 1   breed          7 non-null      object
 2   color          7 non-null      object
 3   height_cm      7 non-null      int64 
 4   weight_kg      7 non-null      int64 
 5   date_of_birth  7 non-null      object
dtypes: int64(2), object(4)
memory usage: 464.0+ bytes
Manipolazione dei dati con pandas

Esplorare un DataFrame: .shape

print(dogs.shape)
(7, 6)
Manipolazione dei dati con pandas

Esplorare un DataFrame: .describe()

print(dogs.describe())
       height_cm  weight_kg
count   7.000000   7.000000
mean   49.714286  27.428571
std    17.960274  22.292429
min    18.000000   2.000000
25%    44.500000  19.500000
50%    49.000000  23.000000
75%    57.500000  27.000000
max    77.000000  74.000000
Manipolazione dei dati con pandas

Componenti di un DataFrame: .values

print(dogs.values)
array([['Bella', 'Labrador', 'Brown', 56, 24, '2013-07-01'],
       ['Charlie', 'Poodle', 'Black', 43, 24, '2016-09-16'],
       ['Lucy', 'Chow Chow', 'Brown', 46, 24, '2014-08-25'],
       ['Cooper', 'Schnauzer', 'Gray', 49, 17, '2011-12-11'],
       ['Max', 'Labrador', 'Black', 59, 29, '2017-01-20'],
       ['Stella', 'Chihuahua', 'Tan', 18, 2, '2015-04-20'],
       ['Bernie', 'St. Bernard', 'White', 77, 74, '2018-02-27']],
      dtype=object)
Manipolazione dei dati con pandas

Componenti di un DataFrame: .columns e .index

print(dogs.columns)
Index(['name', 'breed', 'color', 'height_cm', 'weight_kg', 'date_of_birth'],
dtype='object')
dogs.index
RangeIndex(start=0, stop=7, step=1)
Manipolazione dei dati con pandas

Filosofia pandas

Dovrebbe esserci un modo ovvio per farlo, e preferibilmente uno solo.

     - Lo Zen di Python di Tim Peters, punto 13

Un coltellino svizzero ecologico

1 https://www.python.org/dev/peps/pep-0020/
Manipolazione dei dati con pandas

Passiamo alla pratica!

Manipolazione dei dati con pandas

Preparing Video For Download...