O que é pandas?

Introdução à Ciência de Dados em Python

Hillary Green-Lerman

Lead Data Scientist, Looker

O que o pandas faz por você?

  • Carregar dados tabulares de fontes diversas
  • Buscar linhas ou colunas específicas
  • Calcular estatísticas agregadas
  • Combinar dados de várias fontes
Introdução à Ciência de Dados em Python

Dados tabulares com pandas

Dados tabulares

+-------------------------------------------------+
|        suspect        |     location    | price |
+-----------------------+-----------------+-------+
| Fred Frequentist      | Petroleum Plaza | 24.95 |
| Ronald Aylmer Fisher  | Clothing Club   | 20.15 |
+-------------------------------------------------+

DataFrame

                suspect        location  price
0      Fred Frequentist  Perolium Plaza  24.95
1  Ronald Aylmer Fisher   Clothing Club  20.15
Introdução à Ciência de Dados em Python

Arquivos CSV

Introdução à Ciência de Dados em Python

Carregando um CSV

import pandas as pd
df = pd.read_csv('ransom.csv')
Introdução à Ciência de Dados em Python

Exibindo um DataFrame

df = pd.read_csv('filename.csv')

print(df)
                 suspect         location          item  price
0         Kirstine Smith  Petroleum Plaza           gas  24.95
1       Fred Frequentist      Burger Mart         fries   1.95
2           Gertrude Cox      Burger Mart         fries   1.95
3   Ronald Aylmer Fisher    Clothing Club         shirt  14.25
4         Kirstine Smith    Clothing Club         dress  20.15
5       Fred Frequentist   Groceries R Us     cucumbers   2.05
6         Kirstine Smith    Clothing Club         dress  20.15
7           Gertrude Cox  Petroleum Plaza   fizzy drink   1.90
8           Gertrude Cox      Burger Mart         fries   1.95
9   Ronald Aylmer Fisher    Clothing Club         shirt  14.25
10  Ronald Aylmer Fisher  Petroleum Plaza       carwash  13.25
11  Ronald Aylmer Fisher    Clothing Club         shirt  14.25
12        Kirstine Smith  Petroleum Plaza           gas  24.95
13      Fred Frequentist   Groceries R Us          eggs   6.50
14          Gertrude Cox  Petroleum Plaza           gas  24.95
15      Fred Frequentist   Groceries R Us          eggs   6.50
16  Ronald Aylmer Fisher   Groceries R Us          eggs   6.50
17      Fred Frequentist   Groceries R Us        cheese   5.00
Introdução à Ciência de Dados em Python

Inspecionando um DataFrame

df.head()
print(df.head())
                 suspect         location          item  price
0         Kirstine Smith  Petroleum Plaza           gas  24.95
1       Fred Frequentist      Burger Mart         fries   1.95
2           Gertrude Cox      Burger Mart         fries   1.95
3   Ronald Aylmer Fisher    Clothing Club         shirt  14.25
4         Kirstine Smith    Clothing Club         dress  20.15
Introdução à Ciência de Dados em Python

Inspecionando um DataFrame

df.info()
print(df.info())
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26 entries, 0 to 25
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype  
 --  ------        --------------  -----  
 0   letter_index  26 non-null     int64 
 1   letter        26 non-null     object 
 2   frequency     26 non-null     float64 
dtypes: float64(1), int64(1), object(1)
memory usage: 704.0+ bytes
Introdução à Ciência de Dados em Python

Inspecionando um DataFrame

Introdução à Ciência de Dados em Python

Vamos praticar!

Introdução à Ciência de Dados em Python

Preparing Video For Download...