Importar archivos planos con NumPy

Introducción a la importación de datos en Python

Hugo Bowne-Anderson

Data Scientist at DataCamp

¿Por qué NumPy?

  • Arrays de NumPy: estándar para datos numéricos

 

ch_1_3.003.png

Introducción a la importación de datos en Python

¿Por qué NumPy?

  • Arrays de NumPy: estándar para datos numéricos
  • Esencial para otros paquetes: p. ej., scikit-learn ch_1_3.004.png
  • loadtxt()
  • genfromtxt()
Introducción a la importación de datos en Python

Importar archivos planos con NumPy

import numpy as np
filename = 'MNIST.txt'
data = np.loadtxt(filename, delimiter=',')
data
[[   0.    0.    0.    0.    0.]
 [  86.  250.  254.  254.  254.]
 [   0.    0.    0.    9.  254.]
 ..., 
 [   0.    0.    0.    0.    0.]
 [   0.    0.    0.    0.    0.]
 [   0.    0.    0.    0.    0.]]
Introducción a la importación de datos en Python

Personaliza tu importación con NumPy

import numpy as np
filename = 'MNIST_header.txt'
data = np.loadtxt(filename, delimiter=',', skiprows=1)
print(data)
[[   0.    0.    0.    0.    0.]
 [  86.  250.  254.  254.  254.]
 [   0.    0.    0.    9.  254.]
 ..., 
 [   0.    0.    0.    0.    0.]
 [   0.    0.    0.    0.    0.]
 [   0.    0.    0.    0.    0.]]
  • skiprows: cuántas filas (no índices) omitir
Introducción a la importación de datos en Python

Personaliza tu importación con NumPy

import numpy as np
filename = 'MNIST_header.txt'
data = np.loadtxt(filename, delimiter=',', skiprows=1, usecols=[0, 2])
print(data)
[[   0.    0.]
 [  86.  254.]
 [   0.    0.]
 ..., 
 [   0.    0.]
 [   0.    0.]
 [   0.    0.]]
  • usecols: índices de las columnas que quieres mantener
Introducción a la importación de datos en Python

Personaliza tu importación con NumPy

data = np.loadtxt(filename, delimiter=',', dtype=str)
Introducción a la importación de datos en Python

Tipos mixtos

titanic.csv

                        Name      Sex  Cabin   Fare
     Braund, Mr. Owen Harris     male    NaN    7.3
  Cumings, Mrs. John Bradley   female    C85   71.3
      Heikkinen, Miss. Laina   female    NaN    8.0
Futrelle, Mrs. Jacques Heath   female   C123   53.1
    Allen, Mr. William Henry     male    NaN   8.05


1 Fuente: Kaggle
Introducción a la importación de datos en Python

Tipos mixtos

titanic.csv

                        Name      Sex  Cabin   Fare
     Braund, Mr. Owen Harris     male    NaN    7.3
  Cumings, Mrs. John Bradley   female    C85   71.3
      Heikkinen, Miss. Laina   female    NaN    8.0
Futrelle, Mrs. Jacques Heath   female   C123   53.1
    Allen, Mr. William Henry     male    NaN   8.05
               ^                                 ^
            strings                           floats
1 Fuente: Kaggle
Introducción a la importación de datos en Python

¡Vamos a practicar!

Introducción a la importación de datos en Python

Preparing Video For Download...