L'importance des fichiers plats en science des données

Introduction à l'importation de données en Python

Hugo Bowne-Anderson

Data Scientist at DataCamp

Fichiers plats

titanic.csv

PassengerId,Survived,Pclass,Name,Gender,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley",female,38,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2.3101282,7.925,,S
Introduction à l'importation de données en Python

Fichiers plats

titanic.csv

PassengerId,Survived,Pclass,Name,Gender,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked

1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S

2,1,1,"Cumings, Mrs. John Bradley",female,38,1,0,PC 17599,71.2833,C85,C

3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2.3101282,7.925,,S

flèche

                        Name      Sex  Cabin  Survived
     Braund, Mr. Owen Harris     male    NaN         0
  Cumings, Mrs. John Bradley   female    C85         1
      Heikkinen, Miss. Laina   female    NaN         1
Futrelle, Mrs. Jacques Heath   female   C123         1
    Allen, Mr. William Henry     male    NaN         0
Introduction à l'importation de données en Python

Fichiers plats

titanic.csv

titanic.csv avec une ligne mise en évidence flèche

                        Name      Sex  Cabin  Survived
     Braund, Mr. Owen Harris     male    NaN         0
  Cumings, Mrs. John Bradley   female    C85         1
      Heikkinen, Miss. Laina   female    NaN         1
Introduction à l'importation de données en Python

Fichiers plats

titanic.csv

titanic.csv avec une colonne mise en évidence flèche

                        Name      Sex  Cabin  Survived
     Braund, Mr. Owen Harris     male    NaN         0
  Cumings, Mrs. John Bradley   female    C85         1
      Heikkinen, Miss. Laina   female    NaN         1
Introduction à l'importation de données en Python

Fichiers plats

  • Fichiers texte contenant des enregistrements
  • C'est-à-dire les données de la table
  • Enregistrement : série de champs ou d'attributs

 

titanic.csv

PassengerId,Survived,Pclass,Name,Gender,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley",female,38,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2.3101282,7.925,,S
Introduction à l'importation de données en Python

Fichiers plats

  • Fichiers texte contenant des enregistrements
  • C'est-à-dire les données de la table
  • Enregistrement : série de champs ou d'attributs
  • Colonne : caractéristique ou attribut

titanic.csv

titanic.csv avec une ligne mise en évidence flèche

Introduction à l'importation de données en Python

Fichiers plats

  • Fichiers texte contenant des enregistrements
  • C'est-à-dire les données de la table
  • Enregistrement : série de champs ou d'attributs
  • Colonne : caractéristique ou attribut

titanic.csv

titanic.csv avec une colonne mise en évidence flèche

Introduction à l'importation de données en Python

En-tête

titanic.csv

________________________________________________________________________
PassengerId,Survived,Pclass,Name,Gender,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
________________________________________________________________________
1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S   
2,1,1,"Cumings, Mrs. John Bradley",female,38,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2.3101282,7.925,,S
Introduction à l'importation de données en Python

En-tête

titanic.csv

________________________________________________________________________
PassengerId,Survived,Pclass,Name,Gender,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
________________________________________________________________________
1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S   
2,1,1,"Cumings, Mrs. John Bradley",female,38,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2.3101282,7.925,,S
Introduction à l'importation de données en Python

Extension de fichier

  • .csv - Valeurs séparées par des virgules
  • .txt - Fichier texte
  • virgules, tabulations - Séparateurs
Introduction à l'importation de données en Python

Fichier délimité par des tabulations

MNIST.txt

pixel149    pixel150    pixel151    pixel152    pixel153
0           0           0           0           0    
86          250         254         254         254    
0           0           0           9           254    
0           0           0           0           0    
103         253         253         253         253    
0           0           0           0           0    
0           0           0           0           0        
0           0           0           0           41        
253         253         253         253         253    
Introduction à l'importation de données en Python

Fichier délimité par des tabulations

MNIST.txt

pixel149    pixel150    pixel151    pixel152    pixel153
0           0           0           0           0    
86          250         254         254         254    
0           0           0           9           254    
0           0           0           0           0    
103         253         253         253         253    
0           0           0           0           0    
0           0           0           0           0        
0           0           0           0           41        
253         253         253         253         253    

                                         Image MNIST : mnist.png

Introduction à l'importation de données en Python

Comment importer des fichiers plats ?

  • Deux packages principaux : NumPy, pandas

ch_1_2.026.png

  • Ici, vous apprendrez à importer :
    • Fichiers plats contenant des données numériques (MNIST)
    • Fichiers plats contenant des données numériques et des chaînes de caractères (titanic.csv)
Introduction à l'importation de données en Python

Passons à la pratique !

Introduction à l'importation de données en Python

Preparing Video For Download...