Importando arquivos simples com NumPy

Introdução à importação de dados em Python

Hugo Bowne-Anderson

Data Scientist at DataCamp

Por que NumPy?

  • Arrays do NumPy: padrão para armazenar dados numéricos

 

ch_1_3.003.png

Introdução à importação de dados em Python

Por que NumPy?

  • Arrays do NumPy: padrão para armazenar dados numéricos
  • Essencial para outros pacotes: ex. scikit-learn ch_1_3.004.png
  • loadtxt()
  • genfromtxt()
Introdução à importação de dados em Python

Importando arquivos simples com NumPy

import numpy as np
filename = 'MNIST.txt'
data = np.loadtxt(filename, delimiter=',')
data
[[   0.    0.    0.    0.    0.]
 [  86.  250.  254.  254.  254.]
 [   0.    0.    0.    9.  254.]
 ..., 
 [   0.    0.    0.    0.    0.]
 [   0.    0.    0.    0.    0.]
 [   0.    0.    0.    0.    0.]]
Introdução à importação de dados em Python

Personalizando a importação no NumPy

import numpy as np
filename = 'MNIST_header.txt'
data = np.loadtxt(filename, delimiter=',', skiprows=1)
print(data)
[[   0.    0.    0.    0.    0.]
 [  86.  250.  254.  254.  254.]
 [   0.    0.    0.    9.  254.]
 ..., 
 [   0.    0.    0.    0.    0.]
 [   0.    0.    0.    0.    0.]
 [   0.    0.    0.    0.    0.]]
  • skiprows: quantas linhas (não índices) pular
Introdução à importação de dados em Python

Personalizando a importação no NumPy

import numpy as np
filename = 'MNIST_header.txt'
data = np.loadtxt(filename, delimiter=',', skiprows=1, usecols=[0, 2])
print(data)
[[   0.    0.]
 [  86.  254.]
 [   0.    0.]
 ..., 
 [   0.    0.]
 [   0.    0.]
 [   0.    0.]]
  • usecols: índices das colunas que você quer manter
Introdução à importação de dados em Python

Personalizando a importação no NumPy

data = np.loadtxt(filename, delimiter=',', dtype=str)
Introdução à importação de dados em Python

Tipos mistos de dados

titanic.csv

                        Name      Sex  Cabin   Fare
     Braund, Mr. Owen Harris     male    NaN    7.3
  Cumings, Mrs. John Bradley   female    C85   71.3
      Heikkinen, Miss. Laina   female    NaN    8.0
Futrelle, Mrs. Jacques Heath   female   C123   53.1
    Allen, Mr. William Henry     male    NaN   8.05


1 Fonte: Kaggle
Introdução à importação de dados em Python

Tipos mistos de dados

titanic.csv

                        Name      Sex  Cabin   Fare
     Braund, Mr. Owen Harris     male    NaN    7.3
  Cumings, Mrs. John Bradley   female    C85   71.3
      Heikkinen, Miss. Laina   female    NaN    8.0
Futrelle, Mrs. Jacques Heath   female   C123   53.1
    Allen, Mr. William Henry     male    NaN   8.05
               ^                                 ^
            strings                           floats
1 Fonte: Kaggle
Introdução à importação de dados em Python

Vamos praticar!

Introdução à importação de dados em Python

Preparing Video For Download...