Seleccionar columnas

Introducción a la ciencia de datos con Python

Hillary Green-Lerman

Lead Data Scientist, Looker

¿Por qué seleccionar columnas?

  • Usar en un cálculo

    credit_records.price.sum()
    
  • Graficar datos

    plt.plot(ransom['letter'], ransom['frequency'])
    
Introducción a la ciencia de datos con Python

Los nombres de columnas son cadenas

print(credit_records.head())
            suspect         location              date         item  price
0    Kirstine Smith   Groceries R Us   January 6, 2018     broccoli   1.25
1      Gertrude Cox  Petroleum Plaza   January 6, 2018  fizzy drink   1.90
2  Fred Frequentist   Groceries R Us   January 6, 2018     broccoli   1.25
3      Gertrude Cox   Groceries R Us  January 12, 2018     broccoli   1.25
4    Kirstine Smith    Clothing Club   January 9, 2018        shirt  14.25
'suspect'
'location'
'date'
'item'
'price'
Introducción a la ciencia de datos con Python

Seleccionar con corchetes y cadena

suspect = credit_records['suspect']
print(suspect)
0            Kirstine Smith
1              Gertrude Cox
2          Fred Frequentist
3              Gertrude Cox
4            Kirstine Smith
5              Gertrude Cox
...
99             Gertrude Cox
100        Fred Frequentist
101            Gertrude Cox
102          Kirstine Smith
103    Ronald Aylmer Fisher
Introducción a la ciencia de datos con Python

Seleccionar con punto

price = credit_records.price
print(price)
0       1.25
1       1.90
2       1.25
3       1.25
4      14.25
5       3.95
...
99     14.25
100    12.05
101    20.15
102     3.95
103     2.05
Introducción a la ciencia de datos con Python

Errores comunes al seleccionar columnas

Usa corchetes y cadena para nombres con espacios o caracteres especiales (-, ?, etc.).

police_report['Is Golden Retriever?']

NO

police_report.Is Golden Retriever?
Objeto `Retriever` no encontrado.
Introducción a la ciencia de datos con Python

Errores comunes al seleccionar columnas

Al usar corchetes y cadena, no olvides las comillas del nombre de la columna.

credit_report['location']

NO

credit_report[location]
Objeto `location` no encontrado.
Introducción a la ciencia de datos con Python

Errores comunes al seleccionar columnas

Corchetes, no paréntesis

credit_report['location']

NO

credit_report('location')
----------------------------------------------------------------------
TypeError  Traceback (most recent call last)
<ipython-input-5-aabdb8981438> in <module>()
----> 1 credit_report('location')

TypeError: 'DataFrame' object is not callable
Introducción a la ciencia de datos con Python

¡Vamos a practicar!

Introducción a la ciencia de datos con Python

Preparing Video For Download...