A importância de arquivos flat na ciência de dados

Introdução à importação de dados em Python

Hugo Bowne-Anderson

Data Scientist at DataCamp

Arquivos flat

titanic.csv

PassengerId,Survived,Pclass,Name,Gender,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley",female,38,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2.3101282,7.925,,S
Introdução à importação de dados em Python

Arquivos flat

titanic.csv

PassengerId,Survived,Pclass,Name,Gender,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked

1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S

2,1,1,"Cumings, Mrs. John Bradley",female,38,1,0,PC 17599,71.2833,C85,C

3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2.3101282,7.925,,S

arrow

                        Name      Sex  Cabin  Survived
     Braund, Mr. Owen Harris     male    NaN         0
  Cumings, Mrs. John Bradley   female    C85         1
      Heikkinen, Miss. Laina   female    NaN         1
Futrelle, Mrs. Jacques Heath   female   C123         1
    Allen, Mr. William Henry     male    NaN         0
Introdução à importação de dados em Python

Arquivos flat

titanic.csv

titanic.csv com uma linha destacada arrow

                        Name      Sex  Cabin  Survived
     Braund, Mr. Owen Harris     male    NaN         0
  Cumings, Mrs. John Bradley   female    C85         1
      Heikkinen, Miss. Laina   female    NaN         1
Introdução à importação de dados em Python

Arquivos flat

titanic.csv

titanic.csv com uma coluna destacada arrow

                        Name      Sex  Cabin  Survived
     Braund, Mr. Owen Harris     male    NaN         0
  Cumings, Mrs. John Bradley   female    C85         1
      Heikkinen, Miss. Laina   female    NaN         1
Introdução à importação de dados em Python

Arquivos flat

  • Arquivos de texto com registros
  • Ou seja, dados em tabela
  • Registro: linha com campos/atributos

 

titanic.csv

PassengerId,Survived,Pclass,Name,Gender,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley",female,38,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2.3101282,7.925,,S
Introdução à importação de dados em Python

Arquivos flat

  • Arquivos de texto com registros
  • Ou seja, dados em tabela
  • Registro: linha com campos/atributos
  • Coluna: feature ou atributo

titanic.csv

titanic.csv com uma linha destacada arrow

Introdução à importação de dados em Python

Arquivos flat

  • Arquivos de texto com registros
  • Ou seja, dados em tabela
  • Registro: linha com campos/atributos
  • Coluna: feature ou atributo

titanic.csv

titanic.csv com uma coluna destacada arrow

Introdução à importação de dados em Python

Cabeçalho

titanic.csv

________________________________________________________________________
PassengerId,Survived,Pclass,Name,Gender,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
________________________________________________________________________
1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S   
2,1,1,"Cumings, Mrs. John Bradley",female,38,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2.3101282,7.925,,S
Introdução à importação de dados em Python

Cabeçalho

titanic.csv

________________________________________________________________________
PassengerId,Survived,Pclass,Name,Gender,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
________________________________________________________________________
1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S   
2,1,1,"Cumings, Mrs. John Bradley",female,38,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2.3101282,7.925,,S
Introdução à importação de dados em Python

Extensão do arquivo

  • .csv - Valores separados por vírgula
  • .txt - Arquivo de texto
  • vírgulas, tabs - Delimitadores
Introdução à importação de dados em Python

Arquivo delimitado por tab

MNIST.txt

pixel149    pixel150    pixel151    pixel152    pixel153
0           0           0           0           0    
86          250         254         254         254    
0           0           0           9           254    
0           0           0           0           0    
103         253         253         253         253    
0           0           0           0           0    
0           0           0           0           0        
0           0           0           0           41        
253         253         253         253         253    
Introdução à importação de dados em Python

Arquivo delimitado por tab

MNIST.txt

pixel149    pixel150    pixel151    pixel152    pixel153
0           0           0           0           0    
86          250         254         254         254    
0           0           0           9           254    
0           0           0           0           0    
103         253         253         253         253    
0           0           0           0           0    
0           0           0           0           0        
0           0           0           0           41        
253         253         253         253         253    

                                         Imagem MNIST: mnist.png

Introdução à importação de dados em Python

Como importar arquivos flat?

  • Dois pacotes principais: NumPy, pandas

ch_1_2.026.png

  • Aqui, você vai aprender a importar:
    • Arquivos flat com dados numéricos (MNIST)
    • Arquivos flat com dados numéricos e strings (titanic.csv)
Introdução à importação de dados em Python

Vamos praticar!

Introdução à importação de dados em Python

Preparing Video For Download...