Preparação de dados

Introdução à ciência de dados

Hadrien Lacroix

Content Developer, DataCamp

Fluxo de trabalho de dados

![Fluxo de trabalho na ciência de dados![

Introdução à ciência de dados

Por que preparar dados?

  • Os dados da vida real são confusos
  • A preparação é feita para prevenir:
    • Erros
    • resultados incorretos
    • algoritmos de polarização

Preparando sopa

Introdução à ciência de dados

Vamos começar a limpeza

Sara Lis Hadrien Lis
Idade "27" ]( =30) ]( =30)
Tamanho 1.77 5.58 1.80 5.58
País Bélgica EUA "FR" EUA

scraper-cleaning-window

Introdução à ciência de dados

Dados organizados

Antes de

$$

Sara Lis Hadrien Lis
Idade "27" ]( =30) ]( =30)
Tamanho 1.77 5.58 1.80 5.58
País Bélgica EUA "FR" EUA

folded-laundry

Introdução à ciência de dados

Saída de dados organizada

Antes de

$$

Sara Lis Hadrien Lis
Idade "27" ]( =30) ]( =30)
Tamanho 1.77 5.58 1.80 5.58
País Bélgica EUA "FR" EUA

Depois de

$$

Name Idade Tamanho País
Sara "26" 1.78 Bélgica
Lis ]( =30) 5.58 EUA
Hadrien 1.80 "FR"
Lis ]( =30) 5.58 EUA
Introdução à ciência de dados

Remover duplicatas

Antes de

$$

Name Idade Tamanho País
Sara "27" 1.77 Bélgica
Lis ]( =30) 5.58 EUA
Hadrien 1.80 "FR"
Lis ]( =30) 5.58 EUA

double-cherry

Introdução à ciência de dados

Remover duplicatas | output

Antes de

$$

Name Idade Tamanho País
Sara "27" 1.77 Bélgica
Lis ]( =30) 5.58 EUA
Hadrien 1.80 "FR"
Lis ]( =30) 5.58 EUA

Depois de

$$

Name Idade Tamanho País
Sara "27" 1.77 Bélgica
Lis ]( =30) 5.58 EUA
Hadrien 1.80 "FR"
Introdução à ciência de dados

ID exclusivo

Antes de

$$

Name Idade Tamanho País
Sara "27" 1.77 Bélgica
Lis ]( =30) 5.58 EUA
Hadrien 1.80 "FR"

purple-duck-with-yellow-ducks

Introdução à ciência de dados

ID exclusivo | output

Antes de

$$

Name Idade Tamanho País
Sara "27" 1.77 Bélgica
Lis ]( =30) 5.58 EUA
Hadrien 1.80 "FR"

Depois de

$$

ID Name Idade Tamanho País
0 Sara "27" 1.77 Bélgica
1 Lis ]( =30) 5.58 EUA
2 Hadrien 1.80 "FR"
Introdução à ciência de dados

Homogeneidade

Antes de

$$

ID Name Idade Tamanho País
0 Sara "27" 1.77 Bélgica
1 Lis ]( =30) 5.58 EUA
2 Hadrien 1.80 "FR"

small-goldfish-facing-large-goldfish

Introdução à ciência de dados

Homogeneidade | output

Antes de

$$

ID Name Idade Tamanho País
0 Sara "27" 1.77 Bélgica
1 Lis ]( =30) 5.58 EUA
2 Hadrien 1.80 "FR"

Depois de

$$

ID Name Idade Tamanho País
0 Sara "27" 1.77 Bélgica
1 Lis ]( =30) 1.70 EUA
2 Hadrien 1.80 "FR"
Introdução à ciência de dados

Homogeneidade, novamente

Antes de

$$

ID Name Idade Tamanho País
0 Sara "27" 1.77 Bélgica
1 Lis ]( =30) 1.70 EUA
2 Hadrien 1.80 "FR"

belgian-flag

Introdução à ciência de dados

Homogeneidade, novamente | output

Antes de

$$

ID Name Idade Tamanho País
0 Sara "27" 1.77 Bélgica
1 Lis ]( =30) 1.70 "EUA"
2 Hadrien 1.80 "FR"

Depois de

$$

ID Name Idade Tamanho País
0 Sara "27" 1.77 "BE"
1 Lis ]( =30) 1.70 "EUA"
2 Hadrien 1.80 "FR"
Introdução à ciência de dados

Tipos de dados

Antes de

$$

ID Name Idade Tamanho País
0 Sara "27" 1.77 "BE"
1 Lis ]( =30) 1.70 "EUA"
2 Hadrien 1.80 "FR"

different-types-of-pasta

Introdução à ciência de dados

Tipos de dados | output

Antes de

$$

ID Name Idade Tamanho País
0 Sara "27" 1.77 "BE"
1 Lis ]( =30) 1.70 "EUA"
2 Hadrien 1.80 "FR"

Depois de

$$

ID Name Idade Tamanho País
0 Sara 27 1.77 "BE"
1 Lis 30 1.70 "EUA"
2 Hadrien 1.80 "FR"
Introdução à ciência de dados

Valores faltantes

Antes de

$$

ID Name Idade Tamanho País
0 Sara 27 1.77 "BE"
1 Lis 30 1.70 "EUA"
2 Hadrien 1.80 "FR"

Motivos:

  • entrada de dados
  • Erro?
  • valor ausente válido

Soluções

  • imputar
  • queda
  • manter
Introdução à ciência de dados

Valores ausentes | output

Antes de

$$

ID Name Idade Tamanho País
0 Sara 27 1.77 "BE"
1 Lis 30 1.70 EUA
2 Hadrien 1.80 "FR"

Depois de

$$

ID Name Idade Tamanho País
0 Sara 27 1.77 "BE"
1 Lis 30 1.70 "EUA"
2 Hadrien 28 1.80 "FR"
Introdução à ciência de dados

Vamos praticar!

Introdução à ciência de dados

Preparing Video For Download...