Sélectionner des colonnes

Introduction à la Data Science en Python

Hillary Green-Lerman

Lead Data Scientist, Looker

Pourquoi sélectionner des colonnes ?

  • Utilisation dans un calcul

    credit_records.price.sum()
    
  • Données du graphique

    plt.plot(ransom['letter'], ransom['frequency'])
    
Introduction à la Data Science en Python

Les noms des colonnes sont des chaînes de caractères

print(credit_records.head())
            suspect         location              date         item  price
0    Kirstine Smith   Groceries R Us   January 6, 2018     broccoli   1.25
1      Gertrude Cox  Petroleum Plaza   January 6, 2018  fizzy drink   1.90
2  Fred Frequentist   Groceries R Us   January 6, 2018     broccoli   1.25
3      Gertrude Cox   Groceries R Us  January 12, 2018     broccoli   1.25
4    Kirstine Smith    Clothing Club   January 9, 2018        shirt  14.25
'suspect'
'location'
'date'
'item'
'price'
Introduction à la Data Science en Python

Sélection avec crochets et chaînes

suspect = credit_records['suspect']
print(suspect)
0            Kirstine Smith
1              Gertrude Cox
2          Fred Frequentist
3              Gertrude Cox
4            Kirstine Smith
5              Gertrude Cox
...
99             Gertrude Cox
100        Fred Frequentist
101            Gertrude Cox
102          Kirstine Smith
103    Ronald Aylmer Fisher
Introduction à la Data Science en Python

Sélectionner avec un point

price = credit_records.price
print(price)
0       1.25
1       1.90
2       1.25
3       1.25
4      14.25
5       3.95
...
99     14.25
100    12.05
101    20.15
102     3.95
103     2.05
Introduction à la Data Science en Python

Erreurs courantes dans la sélection des colonnes

Utiliser des crochets et des chaînes de caractères pour les noms de colonnes contenant des espaces ou des caractères spéciaux (-, ?, etc.).

police_report['Is Golden Retriever?']

NOT

police_report.Is Golden Retriever?
Object `Retriever` not found.
Introduction à la Data Science en Python

Erreurs courantes dans la sélection des colonnes

Lors de l’utilisation des crochets et des chaînes, ne pas oublier les guillemets autour du nom de la colonne.

credit_report['location']

NOT

credit_report[location]
Object `location` not found.
Introduction à la Data Science en Python

Erreurs courantes dans la sélection des colonnes

Crochets, pas de parenthèses

credit_report['location']

NOT

credit_report('location')
----------------------------------------------------------------------
TypeError  Traceback (most recent call last)
<ipython-input-5-aabdb8981438> in <module>()
----> 1 credit_report('location')

TypeError: 'DataFrame' object is not callable
Introduction à la Data Science en Python

Passons à la pratique !

Introduction à la Data Science en Python

Preparing Video For Download...