Importation de fichiers plats à l'aide de NumPy

Introduction à l'importation de données en Python

Hugo Bowne-Anderson

Data Scientist at DataCamp

Pourquoi NumPy ?

  • Tableaux NumPy : norme pour le stockage de données numériques

 

ch_1_3.003.png

Introduction à l'importation de données en Python

Pourquoi NumPy ?

  • Tableaux NumPy : norme pour le stockage de données numériques
  • Essentiel pour d'autres packages : par exemple scikit-learn ch_1_3.004.png
  • loadtxt()
  • genfromtxt()
Introduction à l'importation de données en Python

Importation de fichiers plats à l'aide de NumPy

import numpy as np
filename = 'MNIST.txt'
data = np.loadtxt(filename, delimiter=',')
data
[[   0.    0.    0.    0.    0.]
 [  86.  250.  254.  254.  254.]
 [   0.    0.    0.    9.  254.]
 ..., 
 [   0.    0.    0.    0.    0.]
 [   0.    0.    0.    0.    0.]
 [   0.    0.    0.    0.    0.]]
Introduction à l'importation de données en Python

Personnaliser votre importation NumPy

import numpy as np
filename = 'MNIST_header.txt'
data = np.loadtxt(filename, delimiter=',', skiprows=1)
print(data)
[[   0.    0.    0.    0.    0.]
 [  86.  250.  254.  254.  254.]
 [   0.    0.    0.    9.  254.]
 ..., 
 [   0.    0.    0.    0.    0.]
 [   0.    0.    0.    0.    0.]
 [   0.    0.    0.    0.    0.]]
  • skiprows : combien de lignes (et non d'index) souhaitez-vous ignorer ?
Introduction à l'importation de données en Python

Personnaliser votre importation NumPy

import numpy as np
filename = 'MNIST_header.txt'
data = np.loadtxt(filename, delimiter=',', skiprows=1, usecols=[0, 2])
print(data)
[[   0.    0.]
 [  86.  254.]
 [   0.    0.]
 ..., 
 [   0.    0.]
 [   0.    0.]
 [   0.    0.]]
  • usecols : liste des indices des colonnes que vous souhaitez conserver
Introduction à l'importation de données en Python

Personnaliser votre importation NumPy

data = np.loadtxt(filename, delimiter=',', dtype=str)
Introduction à l'importation de données en Python

Types de données mixtes

titanic.csv

                        Name      Sex  Cabin   Fare
     Braund, Mr. Owen Harris     male    NaN    7.3
  Cumings, Mrs. John Bradley   female    C85   71.3
      Heikkinen, Miss. Laina   female    NaN    8.0
Futrelle, Mrs. Jacques Heath   female   C123   53.1
    Allen, Mr. William Henry     male    NaN   8.05


1 Source : Kaggle
Introduction à l'importation de données en Python

Types de données mixtes

titanic.csv

                        Name      Sex  Cabin   Fare
     Braund, Mr. Owen Harris     male    NaN    7.3
  Cumings, Mrs. John Bradley   female    C85   71.3
      Heikkinen, Miss. Laina   female    NaN    8.0
Futrelle, Mrs. Jacques Heath   female   C123   53.1
    Allen, Mr. William Henry     male    NaN   8.05
               ^                                 ^
            strings                           floats
1 Source : Kaggle
Introduction à l'importation de données en Python

Passons à la pratique !

Introduction à l'importation de données en Python

Preparing Video For Download...